llm-inference
Cómo comprimir la KV cache hasta 4x
La KV cache es uno de los costos más pesados al servir LLMs. En este artículo ves cómo la compresión sin pérdida de speculative KV coding puede bajar memoria hasta 4x y abrir contextos más largos para equipos técnicos en LatAm.
Leer artículo