IA Para Texto

¿Cómo Funciona GPT-4:? Arquitectura, Infraestructura y Costos

0

OpenAI mantiene en secreto la arquitectura de GPT-4 no porque represente un riesgo para la humanidad, sino porque es replicable. Empresas como Google, Meta, Anthropic y otras tendrán modelos tan o más capaces que GPT-4 en breve.

OpenAI ha construido algo increíble con gran ingeniería, pero no es magia. Es una solución elegante con muchos compromisos complejos. La ventaja de OpenAI es su amplio uso en el mundo real, el talento de ingeniería y la capacidad de seguir adelantando futuros modelos.

¿Qué contiene GPT-4?

Hoy compartimos información sobre la arquitectura del modelo, infraestructura de entrenamiento, infraestructura de inferencia, cantidad de parámetros, composición del conjunto de datos de entrenamiento, recuento de tokens y capas, estrategias de paralelismo, adaptación de visión multimodal y cómo aliviar ciertos cuellos de botella en la inferencia de modelos gigantes.

Lo más interesante de GPT-4 es entender por qué se tomaron ciertas decisiones arquitectónicas.

Costos de entrenamiento e inferencia

Abordaremos el costo del entrenamiento e inferencia de GPT-4 en A100 y cómo escala con H100 para futuras arquitecturas de modelos.

Problemas con modelos densos

De GPT-3 a GPT-4, OpenAI quería escalar 100 veces, pero el problema era el costo. Los modelos de transformadores densos no escalan más. Muchas empresas entrenan modelos de lenguaje usando esta arquitectura.

Los costos de entrenamiento parecen enormes, pero son triviales para estas empresas. El factor limitante es escalar el cálculo en un tiempo en el que los humanos puedan recibir retroalimentación y modificar la arquitectura.

La muralla de la IA: la inferencia

En los próximos años, varias empresas entrenarán modelos en supercomputadoras que valen más de cien mil millones de dólares. La diferencia entre esos gastos y la IA es que la IA aportará valor a corto plazo con asistentes humanos y agentes autónomos.

El problema más importante con el escalado de la IA es la inferencia. El objetivo es desacoplar el cómputo de entrenamiento del cómputo de inferencia. Por eso se utiliza la arquitectura de modelos dispersos; no todos los parámetros se activan durante la inferencia.

El verdadero desafío es que escalar estos modelos a usuarios y agentes es muy costoso. Los costos de inferencia superan los de entrenamiento por mucho. Aquí es donde OpenAI innova en arquitectura e infraestructura de modelos.

Modelos densos y problemas de ancho de banda

La inferencia de modelos grandes es un problema multivariable en el que el tamaño del modelo es un problema para los modelos densos. Los dispositivos nunca tienen suficiente ancho de banda de memoria para lograr ciertos niveles de rendimiento con modelos de lenguaje grandes.

En centros de datos y nubes, las tasas de utilización son fundamentales. Nvidia mejora constantemente el software de bajo nivel para aumentar las tasas de utilización de FLOPS con un movimiento más inteligente de datos alrededor de un chip, entre chips y memoria.

Velocidad de lectura humana y modelos dispersos

La inferencia de modelos de lenguaje debe ser lo suficientemente rápida para que los usuarios puedan usarla en tiempo real. Los humanos leen en promedio 250 palabras por minuto, pero algunos llegan hasta 1,000 palabras por minuto. Eso significa que se necesitan al menos 8.33 tokens por segundo, pero más como 33.33 tokens por segundo para cubrir todos los casos extremos.

Un modelo denso de un billón de parámetros no puede lograr este rendimiento en servidores GPU Nvidia H100 debido a los requisitos de ancho de banda de memoria. Sin embargo, OpenAI está logrando la velocidad de lectura humana con A100 y un modelo de más de un billón de parámetros, y lo ofrece ampliamente a un bajo precio de solo $0.06 por 1,000 tokens. Eso se debe a que es disperso, es decir, no se utilizan todos los parámetros.

Impulsando la eficiencia de la inferencia

OpenAI ha trabajado en infraestructura de inferencia y arquitectura de modelos para impulsar la eficiencia de la inferencia de GPT-4. Algunas de las técnicas utilizadas incluyen:

  1. Modelos dispersos: En lugar de activar todos los parámetros en cada inferencia, los modelos dispersos solo activan un subconjunto de parámetros. Esto reduce significativamente la cantidad de cálculo y memoria necesarios para la inferencia, permitiendo un rendimiento en tiempo real a pesar del tamaño del modelo.

  2. Paralelismo de datos y modelo: La distribución de cálculos y memoria en múltiples dispositivos y nodos permite que el trabajo de inferencia se realice de manera más rápida y eficiente. El paralelismo de datos implica dividir un lote de datos en partes y procesar cada parte en un dispositivo diferente, mientras que el paralelismo del modelo divide el modelo en segmentos y distribuye los cálculos entre dispositivos.

  3. Optimización del software de bajo nivel: OpenAI y Nvidia han trabajado juntos para optimizar el software de bajo nivel que controla el movimiento de datos dentro y entre los chips, así como la memoria. Esto permite una mayor utilización y eficiencia de los recursos de cómputo y memoria.

  4. Adaptación de visión multimodal: GPT-4 también está diseñado para adaptarse a tareas multimodales, lo que significa que puede procesar y generar información a partir de diferentes tipos de entradas, como texto, imágenes y audio. Esto permite una mayor flexibilidad y la capacidad de abordar una amplia gama de tareas y aplicaciones.

Desafíos futuros y oportunidades

A medida que la arquitectura y la infraestructura de GPT-4 continúan evolucionando, también lo hacen los desafíos y oportunidades asociados con el escalado de modelos de lenguaje. Algunos de los problemas clave incluyen:

  1. Costos de inferencia: Aunque los costos de entrenamiento son importantes, los costos de inferencia representan un desafío aún mayor a medida que los modelos de lenguaje se escalan para ser utilizados por millones de usuarios y agentes. Reducir estos costos sigue siendo un área de enfoque clave para OpenAI.

  2. Escalabilidad: Los modelos de lenguaje más grandes tienen un potencial significativo para ofrecer un valor en tiempo real a través de asistentes humanos y agentes autónomos. Sin embargo, escalar estos modelos a un gran número de usuarios y agentes también presenta desafíos significativos en términos de infraestructura, tiempo de respuesta y costo.

  3. Equidad y accesibilidad: A medida que los modelos de lenguaje se vuelven más avanzados y útiles, también es importante garantizar que sean accesibles y equitativos para todos los usuarios, independientemente de su ubicación, nivel de ingresos o habilidades técnicas.

A pesar de estos desafíos, el progreso en la arquitectura, la infraestructura y la eficiencia del modelo de GPT-4 presenta oportunidades emocionantes para el futuro de la inteligencia artificial y la computación en general. A medida que los modelos de lenguaje como GPT-4 continúan evolucionando, es probable que veamos una mayor integración de la inteligencia artificial en nuestras vidas diarias y una amplia gama de aplicaciones nuevas y emocionantes.

DimensionIA

Educación de la Ciencia de Datos: cómo los Modelos de Lenguaje Grandes están Cambiando el Juego

Previous article

Web Scraping: Conceptos Básicos y Precauciones

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up