GeneralIA Para Texto

vLLM: La revolución silenciosa en la inferencia y el servicio de modelos LLM

0

¿Alguna vez has soñado con una herramienta de inteligencia artificial más rápida, eficiente y económica?

Hoy presentamos vLLM, una biblioteca de código abierto que transforma la forma en que utilizamos los modelos de lenguaje a gran escala (LLM) en todas las industrias.

Imagina a vLLM como un superhéroe silencioso que se desliza entre las sombras, brindando resultados sorprendentes sin hacer ruido.

Deja que te cuente su historia.

Un nuevo amanecer con PagedAttention

La clave del éxito de vLLM radica en su algoritmo de atención, PagedAttention. Inspirado en la idea clásica de memoria virtual y paginación en sistemas operativos, PagedAttention permite almacenar claves y valores continuos en espacio de memoria no contiguo. Esto resulta en un uso de memoria casi óptimo y una mejora significativa en el rendimiento.

PagedAttention: La caché KV está dividida en bloques. No es necesario que los bloques sean contiguos en el espacio de memoria.

PagedAttention: La caché KV está dividida en bloques. No es necesario que los bloques sean contiguos en el espacio de memoria.

El poder de PagedAttention en acción

vLLM ha demostrado su valía en la práctica: en comparación con HuggingFace Transformers (HF) y HuggingFace Text Generation Inference (TGI), vLLM logra hasta 24 veces más rendimiento que HF y hasta 3.5 veces más rendimiento que TGI (pruebas realizadas en GPUs NVIDIA A10G y A100). Esta hazaña se debe en gran parte a la eficiencia en la gestión de la memoria que PagedAttention proporciona.

Rendimiento de servicio cuando cada solicitud pide una finalización de salida. vLLM consigue un rendimiento 14x - 24x mayor que HF y 2,2x - 2,5x mayor que TGI.

Rendimiento de servicio cuando cada solicitud pide una finalización de salida. vLLM consigue un rendimiento 14x – 24x mayor que HF y 2,2x – 2,5x mayor que TGI.

Rendimiento de servicio cuando cada solicitud pide tres terminaciones de salida paralelas. vLLM consigue un rendimiento 8,5x - 15x mayor que HF y 3,3x - 3,5x mayor que TGI.

Rendimiento de servicio cuando cada solicitud pide tres terminaciones de salida paralelas. vLLM consigue un rendimiento 8,5x – 15x mayor que HF y 3,3x – 3,5x mayor que TGI.

Una herramienta valiosa para los desarrolladores de chatbots

El equipo de LMSYS ha utilizado con éxito vLLM en la creación y servicio de sus populares modelos de chatbot, como Vicuña, Koala y LLaMA. Gracias a la integración de FastChat-vLLM, han logrado atender a millones de usuarios con un rendimiento y una latencia extremadamente altos, utilizando un número limitado de GPUs patrocinadas por la universidad.

Reducción de costos operativos

Además, vLLM ha permitido a LMSYS reducir a la mitad la cantidad de GPUs utilizadas para atender el tráfico, lo que se traduce en una disminución significativa de los costos operativos. Como dijo Benjamin Franklin, «un centavo ahorrado es un centavo ganado», y en este caso, vLLM ha demostrado ser una herramienta valiosa para ahorrar recursos.

Prueba vLLM hoy mismo

Si estás interesado en probar vLLM, visita su repositorio de GitHub y sigue las instrucciones. También puedes encontrar información adicional y documentación técnica en vLLM.readthedocs.io.

El futuro es brillante

El impacto de vLLM en la industria de la inteligencia artificial está comenzando a tomar forma. Con su enfoque innovador y eficiente, vLLM está marcando el comienzo de una era emocionante en el desarrollo y servicio de modelos LLM. ¿Estás listo para unirte a la revolución silenciosa?

DimensionIA

Los Modelos de Lenguaje Ahora Definen Parámetros de Recompensa de Robots

Previous article

Galactic: Velocidad en el Aprendizaje por Refuerzo en Entornos de Manipulación Robótica Móvil en Interiores.

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up