llm-inference
OSCAR: caché KV de 2 bits para LLMs
OSCAR de Together AI reduce la memoria de la caché KV con cuantización de 2 bits para LLMs de contexto largo. Aquí ves qué problema resuelve, cómo impacta en costo y latencia, y por qué le importa a equipos en LatAm.
Leer artículo