GeneralIA Para Texto

Descubriendo QLoRA: el Avance que Impulsará el Entrenamiento de Modelos de Lenguaje

0

¿Te imaginas entrenar un modelo de lenguaje masivo en tu GPU de consumo? Gracias al trabajo de Itamar Golan, jefe de IA en Orca Security, esto ya es posible con QLoRA, una innovación revolucionaria que abre nuevas posibilidades en el mundo de los modelos de lenguaje de gran escala.

QLoRA: Reducción de memoria sin comprometer el rendimiento

QLoRA es un método que reduce el uso de memoria en el proceso de ajuste fino de modelos de lenguaje masivos, sin sacrificar el rendimiento en comparación con el ajuste fino estándar de 16 bits. Ahora, es posible ajustar un modelo de 33B parámetros en una única GPU de 24GB y un modelo de 65B en una GPU de 46GB. ¡Sorprendente!

La magia detrás de QLoRA: 4 bits y adaptadores de rango bajo

El secreto de QLoRA radica en la utilización de cuantización de 4 bits para comprimir un modelo de lenguaje previamente entrenado. Los parámetros del modelo se congelan y se agregan otros entrenables en forma de adaptadores de rango bajo (Low-Rank Adapters). Durante el ajuste fino, QLoRA propaga los gradientes a través del modelo cuantizado de 4 bits hacia los adaptadores de rango bajo, siendo estos los únicos parámetros actualizados durante el entrenamiento. Aprende más sobre LoRA en el artículo original.

Dos tipos de datos: almacenamiento y cálculo

QLoRA utiliza un tipo de dato para almacenamiento (generalmente NormalFloat de 4 bits) y otro para cálculo (BrainFloat de 16 bits). Los pesos se descomprimen solo cuando son necesarios, manteniendo bajo el uso de memoria durante el entrenamiento y la inferencia.

Resultados prometedores: igualando a los métodos de 16 bits

En diversos experimentos, QLoRA ha demostrado igualar a los métodos de ajuste fino de 16 bits. Los modelos Guanaco, que utilizan QLoRA para ajustar modelos LLaMA en el conjunto de datos OpenAssistant (OASST1), son sistemas de chatbots de última generación y se acercan a ChatGPT en el benchmark Vicuna. Echa un vistazo al artículo de QLoRA.

Entrenamiento en Google Colab: accesible y económico

Los modelos Guanaco alcanzan el 99.3% del nivel de rendimiento de ChatGPT con solo 24 horas de ajuste fino en una sola GPU. Puedes llevar a cabo este proceso en Google Colab por solo $10 al mes. Prueba el Colab para inferencia y el Colab para ajuste fino.

En resumen: un salto hacia el futuro de los modelos de lenguaje

QLoRA es como un puente que conecta las GPUs de consumo con el entrenamiento de modelos de lenguaje masivos, permitiendo a más personas acceder a esta tecnología y explorar sus posibilidades. La próxima vez que quieras entrenar un modelo de lenguaje de gran escala, no dudes en probar QLoRA y maravillarte con el ingenio humano.

DimensionIA

Neuralink Recibe la Aprobación de la FDA: Un Prometedor Futuro y Desafíos Éticos

Previous article

Conquistando el Mundo Digital: ¡FalconLM ha llegado!

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up