Los avances recientes en Inteligencia Artificial han permitido construir asistentes virtuales cada vez más competentes para entendernos y ayudarnos. Sin embargo, estos modelos adolecen de una carencia fundamental: no comprenden el mundo físico tridimensional que nos rodea, con todas sus sutilezas espaciales y físicas.
Un nuevo artículo publicado en ArXiv propone una solución innovadora para inyectar la realidad 3D en los asistentes conversacionales, dotándolos de un entendimiento más profundo y humano. Creando una simbiosis perfecta entre el lenguaje natural y las representaciones tridimensionales del mundo real.
Asistentes 2D limitados por un mundo 3D
Los actuales modelos de lenguaje carecen de un modelo mental 3D del mundo. No pueden comprender conceptos espaciales, relaciones físicas entre objetos, interacciones. Su experiencia del mundo se limita a lo que captan las cámaras en 2D.
Es como si vivieran en un mundo plano, sin profundidad. Sin la capacidad de imaginar qué hay detrás de los objetos, cómo se relacionan en el espacio. Esta limitación impide que puedan ayudarnos de forma natural en tareas cotidianas.
Necesitamos que los asistentes virtuales comprendan los entornos 3D, razonen en base a esa comprensión espacial y puedan interactuar en mundos tridimensionales. Solo así lograrán esa fluidez y naturalidad humanas.
La propuesta: Modelos de Lenguaje 3D
El artículo propone una nueva familia de modelos, llamados 3D-LLM, capaces de aceptar representaciones 3D como entrada. Estas representaciones codifican la geometría y relaciones de un entorno en forma de nube de puntos 3D.
Al comprender las escenas 3D, los modelos acceden a información mucho más rica, incluyendo relaciones espaciales, interacciones posibles, disposición de objetos, física etc. Conceptos inaccesibles desde representaciones 2D.
Esto les permite realizar tareas imposibles actualmente para los asistentes virtuales: generar descripciones 3D de escenas, responder preguntas 3D, descomponer tareas complejas, anclar objetos mencionados en ubicaciones 3D, dialogar sobre entornos 3D, navegar espacios 3D etc.
Entrenando cerebros 3D a partir de cero
Uno de los principales desafíos es entrenar estos modelos 3D desde cero, dada la escasez de datos 3D emparejados con descripciones de lenguaje natural.
Los investigadores resuelven el problema mediante tuberías de generación de datos únicas. Aprovechando modelos de lenguaje como GPT-3, inducen la creación automática de grandes conjuntos de datos 3D-lenguaje natural para entrenar los 3D-LLM.
Otra dificultad es extraer características 3D significativas, alineadas con el lenguaje natural. Aquí utilizan técnicas para construir representaciones 3D a partir de vistas 2D renderizadas. Luego entrenan los 3D-LLM usando modelos de lenguaje visual (VLM) 2D pre-entrenados.
Resultados prometedores
Los experimentos muestran mejoras significativas respecto a modelos actuales en tareas como respuestas a preguntas 3D y generación de descripciones 3D. Los nuevos modelos 3D superan incluso a los VLM 2D que usan múltiples vistas renderizadas como entrada.
Esto demuestra su capacidad para capturar relaciones espaciales y semánticas 3D, imposibles de inferir desde vistas 2D inconexas. Nos acerca al sueño de asistentes virtuales que comprendan el mundo físico para ayudarnos de forma más natural e intuitiva.
Queda un largo camino por recorrer, pero 3D-LLM representa un avance conceptual clave en la humanización de la Inteligencia Artificial conversacional.
Comentarios