Inteligencia Artificial de Apple Supera a GPT-4 en Visión
La inteligencia artificial está en constante evolución, y Apple ha dado un paso significativo en este campo. Recientemente, han presentado un sistema de inteligencia artificial multimodal llamado Ferret (hurón en inglés), que ha demostrado superar las capacidades de visión de GPT-4 en ciertos aspectos. Esto podría cambiar la percepción de GPT-4 como el líder indiscutible en el ámbito de los modelos de lenguaje de gran escala.
¿Qué es Ferret?
Ferret es un modelo de visión desarrollado por investigadores de Apple. Utiliza una herramienta conocida como CLIP para interpretar imágenes y convertirlas en un formato que la computadora puede procesar.

Además, Ferret analiza el texto proporcionado y lo transforma para su comprensión. Lo que hace especial a Ferret es su capacidad para identificar áreas específicas en una imagen utilizando coordenadas especiales, lo que le permite localizar con precisión partes concretas de la imagen mencionadas por el usuario.
Características Avanzadas de Ferret
Este modelo no solo se limita a identificar formas simples, sino que también comprende detalles y ubicaciones de múltiples puntos dentro de una región específica. Ferret combina esta información para describir con exactitud la parte de la imagen a la que nos referimos. En pruebas comparativas, Ferret ha mostrado una capacidad superior a la de GPT-4 en la identificación de imágenes.
Comparación con GPT-4

En los benchmarks, Ferret ha demostrado tener una comprensión más profunda de la relación entre objetos en una imagen y sus funciones en el mundo real. A diferencia de GPT-4, que puede reconocer áreas marcadas o especificadas en el texto, Ferret destaca por su precisión al señalar áreas pequeñas y específicas, incluso en escenas complejas.
Ferret vs. GPT-4 en la Práctica
Los investigadores de Apple han realizado pruebas comparativas entre Ferret y GPT-4. Por ejemplo, al preguntar «¿Para qué se utiliza la región cero?», Ferret pudo identificar correctamente que el objeto era un tubo de escape de una motocicleta. GPT-4, aunque capaz de reconocer objetos dentro de áreas marcadas en rojo, tiende a tener dificultades con regiones más pequeñas y complejas.
Una idea para recordar
El modelo multimodal Ferret de Apple se destaca por su habilidad para analizar imágenes detalladamente, llenando un vacío crucial en el análisis de imágenes. Aunque GPT-4 es competente en preguntas y respuestas de conocimiento general relacionadas con regiones de imágenes, Ferret sobresale en la identificación precisa de áreas pequeñas, lo que representa un avance significativo en la inteligencia artificial aplicada a la visión.
Para más información sobre el modelo Ferret de Apple, puedes visitar el repositorio en GitHub.















Comentarios