Todos hemos oído la famosa frase «menos es más«, pero ¿alguna vez te has preguntado cómo aplicar esto al mundo de la inteligencia artificial y los modelos de lenguaje?
OpenChat demuestra que esta sabiduría sigue siendo válida incluso en el ámbito de la tecnología punta.
OpenChat: eficiencia en datos y rendimiento
OpenChat es una serie de modelos de lenguaje de código abierto perfeccionados en un conjunto de datos diverso y de alta calidad con conversaciones multi-ronda.
A partir de solo ~6K conversaciones GPT-4 filtradas de las ~90K conversaciones ShareGPT (se refiere a una cantidad de conversaciones (90,000) compartidas utilizando ShareGPT. ShareGPT es una extensión de Chrome que permite compartir fácilmente las conversaciones generadas por ChatGPT con un solo clic), OpenChat está diseñado para lograr un alto rendimiento con datos limitados.
Esto nos recuerda la historia del David y Goliat, donde el pequeño pero astuto David derrota al gigante Goliat.
Modelos genéricos de OpenChat
Existen dos modelos genéricos de OpenChat: el modelo básico y OpenChat-8192. Ambos modelos superan el desempeño de ChatGPT en la evaluación Vicuna GPT-4(*) y tienen una alta tasa de victorias en AlpacaEval.(**). Puedes obtener más información sobre estos modelos y cómo cargarlos en Huggingface.
(*) La evaluación Vicuna GPT-4 es una comparación de modelos de lenguaje usando GPT-4 como juez. Vicuna es un chatbot de código abierto que logra más del 90% de calidad en comparación con ChatGPT y otros modelos.
(**)AlpacaEval es una evaluación automática de modelos de lenguaje que siguen instrucciones, como ChatGPT. Una alta tasa de victorias indica un mejor desempeño en seguir instrucciones.
OpenCoderPlus: un modelo para la generación de código
Además de los modelos genéricos, OpenChat también incluye un modelo especializado en la generación de código llamado OpenCoderPlus. Este modelo también supera el desempeño de ChatGPT en la evaluación Vicuna GPT-4 y tiene una alta tasa de victorias en AlpacaEval. Echa un vistazo a OpenCoderPlus en Huggingface para obtener más detalles.
La importancia de la calidad sobre la cantidad
OpenChat demuestra que no siempre es necesario utilizar grandes volúmenes de datos para entrenar modelos eficientes. Como en esa metáfora donde un pequeño pez puede nadar más rápido que un gran tiburón, OpenChat es capaz de superar a modelos más grandes utilizando menos datos. Esto es especialmente relevante en el enfoque LIMA (Less Is More for Alignment) mencionado en el artículo LIMA.
Un logro significativo en el mundo del código abierto
OpenChat es el primer modelo de código abierto en superar el desempeño de ChatGPT en la evaluación Vicuna GPT-4. Esto marca un hito en el avance de la inteligencia artificial y los modelos de lenguaje de código abierto. Como dijo Isaac Newton: «Si he visto más lejos, es por estar de pie sobre los hombros de gigantes«.
OpenChat demuestra que los avances en la inteligencia artificial no siempre requieren enormes recursos y que a veces, el poder de la optimización puede superar a la fuerza bruta.
Comentarios