Google presenta su último modelo de lenguaje: PaLM-2, con habilidades mejoradas en programación y razonamiento en comparación con su versión anterior.
Aunque no logra superar a GPT-4 en la prueba HumanEval, lleva el desarrollo de la inteligencia artificial un paso más allá.
En este artículo, exploraremos sus características y cómo se enfrenta al gigante de OpenAI.
¿Qué es PaLM-2 y cómo funciona?
PaLM-2 es un modelo Transformer que ha sido entrenado con una mezcla de objetivos similares a UL2. Gracias a sus evaluaciones en inglés y en tareas multilingües de lenguaje y razonamiento, se ha demostrado que este modelo mejora significativamente la calidad en diversas tareas y tamaños de modelos, al mismo tiempo que ofrece una inferencia más rápida y eficiente en comparación con PaLM.
La investigación sobre PaLM-2 muestra un avance en la capacidad de razonamiento y permite un despliegue más amplio y una interacción más natural.
Capacidad de razonamiento y comparación con GPT-4
PaLM-2 destaca en tareas de razonamiento como BIG-Bench. El Beyond the Imitation Game Benchmark (BIG-bench) es un proyecto colaborativo que busca evaluar y predecir las capacidades futuras de los modelos de lenguaje de gran envergadura.
Volviendo a PalM-2, su rendimiento es estable en evaluaciones de inteligencia artificial responsable, permitiendo controlar la toxicidad sin afectar otras capacidades.
Sin embargo, en la prueba HumanEval de OpenAI, el modelo de código PaLM-2-S* de Google alcanza solo el 37%, mientras que GPT-4 obtiene el 67%. ¿A qué se debe esta diferencia?
El éxito de OpenAI se basa en la creación de regímenes de entrenamiento específicos para la programación, extrayendo pruebas unitarias de Github y utilizando el aprendizaje por refuerzo. Esto requiere creatividad y estructuras de soporte, así como mucho trabajo de ingeniería. A pesar de los resultados impresionantes en razonamiento de PaLM-2, ninguno de ellos es específico para la programación, como señala Frank Mori, editor de DimensionIA.com.
Una herramienta versátil con espacio para mejorar
PaLM-2 puede considerarse como una «navaja suiza» en el campo de los modelos de lenguaje, ya que ofrece diversas habilidades útiles pero aún tiene margen de mejora. Al igual que Thomas Edison afirmó: «No he fracasado. He encontrado 10.000 soluciones que no funcionan«, podemos ver a PaLM-2 como un paso importante en la evolución de los modelos de lenguaje.
Si se propone una métrica mejor que HumanEval, sería interesante comparar cómo funcionan PaLM-2 y GPT-4 en distintos escenarios. Aunque PaLM-2 no ha logrado superar a GPT-4 en esta prueba específica, sus avances en eficiencia, razonamiento y habilidades multilingües demuestran que el desarrollo de la inteligencia artificial continúa avanzando.
Reflexión final
PaLM-2 es un modelo de lenguaje prometedor que presenta mejoras significativas en comparación con su predecesor. A pesar de no superar a GPT-4 en la prueba HumanEval, demuestra un progreso notable en razonamiento y eficiencia. Como en cualquier campo en constante evolución, siempre habrá espacio para crecer y aprender de los éxitos y fracasos en la búsqueda de soluciones innovadoras. La competencia entre Google y OpenAI nos lleva a preguntarnos: ¿cuál será el próximo avance en el mundo de los modelos de lenguaje y cómo impactará en nuestra vida cotidiana?
Comentarios