llm-inference
Tiny-vLLM: inferencia LLM ligera en C++ y CUDA
Tiny-vLLM propone inferencia LLM más ligera con C++ y CUDA, pensada para equipos que quieren servir modelos con menos capas de software y mejor control de rendimiento en producción, incluyendo contextos de LatAm y Ecuador.
Leer artículo