La inteligencia artificial ha experimentado avances asombrosos en los últimos años. Especialmente en el campo de los modelos de lenguaje, con sistemas capaces de generar texto coherente y mantener conversaciones fluidas. Pero la mayoría se basaban únicamente en palabras. Ahora, una nueva generación de modelos multimodales está integrando imágenes, voz y otros canales para alcanzar una comprensión más profunda y natural del mundo.
Uno de los exponentes más destacados de esta tendencia es GPT-4V, desarrollado por investigadores de OpenAI. En realidad se trata de GPT4 con capacidades multimodales. Se han añadido capacidades de procesamiento de imágenes a GPT-4 y esolo cambia todo. Los resultados obtenidos hasta el momento apuntan a que GPT-4V marcará un punto de inflexión en la forma en que humanos y máquinas podrán interactuar.
La flexibilidad de entender texto, imágenes y más
Una de las claves del potencial de GPT-4V es su capacidad para comprender diferentes tipos de entradas de forma flexible: desde texto hasta imágenes completas, fragmentos de imágenes, indicadores visuales o texto integrado en las escenas. Esto permite nuevos y más intuitivos métodos de interacción.
Por ejemplo, se pueden proporcionar instrucciones dibujando directamente sobre las imágenes en lugar de describirlas con palabras. Las aplicaciones basadas en referencias visuales, donde el usuario señala zonas concretas de una imagen para pedir información, se vuelven así mucho más potentes.
Dominios diversos: de la gastronomía a la medicina
Más allá de esta versatilidad para recibir input, GPT-4V demuestra un rendimiento sobresaliente en tareas tan diversas como generar descripciones de imágenes de comida, lugares emblemáticos, logos o radiografías médicas. Incluso es capaz de contar objetos, localizarlos dentro de una imagen o añadir subtítulos detallados.
Su extenso conocimiento multimodal y su sensatez le permiten comprender el contexto necesario para realizar inferencias correctas e identificar sutilezas como el humor en memes visuales. También destaca respondiendo preguntas sobre ciencia utilizando diagramas y gráficos.
Especialización en documentos, tablas y fórmulas
Más allá de las imágenes, GPT-4V muestra habilidades relevantes para ámbitos especializados. Puede analizar y extraer información de tablas, gráficos y todo tipo de documentos.
Suponemos que OpenAI ha acelerado esta capacidad visual de GPT4 porque competidores como Bard ya estaban siendo usadas para convertir imágenes de tablas a tablas de texto reales.
Incluso es capaz de traducir ecuaciones matemáticas escritas a mano en código LaTeX. Todo ello de forma multilingüe, captando referencias culturales en las imágenes y mostrando cierta capacidad para reconocer emociones humanas. El potencial para la educación, la medicina y otros campos es enorme.
Nuevas aplicaciones en el horizonte
Investigadores y usuarios en general ya están explorando posibles aplicaciones prácticas de GPT-4V, como detectar diferencias en imágenes para control de calidad, analizar reclamaciones de seguros, generar informes médicos automáticos o ayudar en tareas de navegación.
Y esto es solo el comienzo. Técnicas como el encadenamiento multimodal, la autorreflexión y el uso de bases de conocimiento externas pueden llevar estas capacidades al siguiente nivel. GPT-4V marca un hito en la conversación bidireccional entre humanos y máquinas.
Como dijo el escritor Isaac Asimov: «La tecnología por sí sola no basta. Debe ser guiada por una visión y un propósito humano«. GPT-4V demuestra cómo modelos inspirados en nuestra versatilidad cognitiva pueden ampliar nuestras capacidades para el bien común. Pero dependerá de nosotros darle un uso ético y enfocado en elevar nuestra humanidad compartida.
Comentarios