¡Bienvenido a la era de los Modelos de Lenguaje Grande Multimodal (MLLM)!
Microsoft ha lanzado un nuevo modelo, KOSMOS-2, que está listo para cambiar el juego con su anclaje a datos del mundo real. Este modelo no es tu modelo de lenguaje promedio.
Entiende y genera no solo texto, sino también imágenes y más, haciendo las interacciones más intuitivas e informativas.
¿Qué es KOSMOS-2 y qué lo diferencia de otros modelos?
KOSMOS-2 es un MLLM que tiene nuevas capacidades de anclaje multimodal y referencia. Puede entender la entrada multimodal, seguir instrucciones, percibir descripciones de objetos (por ejemplo, cuadros delimitadores) y anclar el lenguaje al mundo visual.
Lo que distingue a KOSMOS-2 de otros modelos es su capacidad de anclaje. Esta capacidad permite al usuario señalar el objeto o región en la imagen directamente en lugar de introducir descripciones de texto detalladas para referirse a él, y el modelo puede entender esa región de la imagen con sus ubicaciones espaciales.
¿Por qué es importante KOSMOS-2?
KOSMOS-2 es importante porque sienta las bases para el desarrollo de la Inteligencia Artificial Encarnada y arroja luz sobre la gran convergencia del lenguaje, la percepción multimodal, la acción y la modelización del mundo, que es un paso clave hacia la inteligencia general artificial. Además, la capacidad de anclaje también permite al modelo responder con respuestas visuales (es decir, cuadros delimitadores), que pueden soportar más tareas de lenguaje-visión como la comprensión de la expresión de referencia. Las respuestas visuales son más precisas y resuelven la ambigüedad de la correferencia en comparación con las respuestas solo de texto.
Construcción de pares de imágenes y texto anclados a escala web (GRIT)
Para desbloquear la capacidad de anclaje, se construyó un conjunto de datos a escala web de pares de imágenes y texto anclados, y se combinó con los corpus multimodales en KOSMOS-1 para entrenar el modelo. Los pares de imágenes y texto anclados se construyen a partir de un subconjunto de pares de imágenes y texto de LAION-2B y COYO-700M.
Evaluación de KOSMOS-2
KOSMOS-2 se evaluó en una amplia gama de tareas, incluyendo
- (i) anclaje multimodal, como la comprensión de la expresión de referencia y el anclaje de frases,
- (ii) referencia multimodal, como la generación de la expresión de referencia,
- (iii) tareas de lenguaje-percepción, y
- (iv) comprensión y generación de lenguaje.
Conclusión
Este trabajo demuestra que KOSMOS-2 no solo logra un rendimiento competitivo en las tareas de lenguaje y visión-lenguaje evaluadas en KOSMOS-1, sino que también logra un rendimiento impresionante en las tareas de anclaje (anclaje de frases y comprensión de la expresión de referencia) y las tareas de referencia (generación de la expresión de referencia)1. Si estás interesado en explorar más sobre KOSMOS-2, puedes leer el artículo de investigación o probarlo ahora mismo en Hugging Face.
Comentarios