Ciertamente, esta es una pregunta que muchos profesionales y expertos en el campo de la inteligencia artificial se hacen hoy en día.
En este artículo, exploraremos si tiene sentido entrenar un LLM desde cero utilizando datos específicos del dominio y analizaremos un caso práctico que involucra a investigadores de Bloomberg.
¿Por qué entrenar un LLM en datos específicos del dominio?
Como dijo el famoso matemático y lógico británico Alan Turing: «La inteligencia es la facultad de adaptarse a nuevos entornos«.
En el caso de los LLM, adaptarse a nuevos entornos significa poder procesar y entender información específica de un dominio particular.
Por ejemplo, en el caso de ProtBERT, un LLM diseñado para trabajar con secuencias de aminoácidos de proteínas, el entrenamiento en datos específicos del dominio resultó en un gran avance.
BloombergGPT: un LLM para finanzas
En el caso del modelo BloombergGPT, los investigadores decidieron entrenar un LLM de 50 mil millones de parámetros específicamente para el ámbito financiero.
Este modelo fue entrenado en 363 mil millones de tokens de datos financieros y 345 mil millones de tokens de un conjunto de datos general.
A modo de comparación, GPT-3 tiene 175 mil millones de parámetros (3.5 veces más grande) pero fue entrenado en 1.4 veces menos tokens (499 mil millones).
¿Cuál es el rendimiento de BloombergGPT en tareas financieras y generales?
Como era de esperar, BloombergGPT superó a otros LLM en tareas relacionadas con finanzas. Lo que resultó interesante es que también tuvo un buen desempeño en tareas de lenguaje general.
Esto plantea la pregunta de si un entrenamiento previo en dos etapas o un ajuste fino específico del dominio podría haber llevado a un rendimiento aún mejor. Sin embargo, los autores no realizaron estos experimentos adicionales, probablemente debido a restricciones de costos.
¿Qué hardware se utilizó para entrenar BloombergGPT?
El modelo fue entrenado en 64 x 8 GPUs A100 de AWS, aunque no se especificó cuánto tiempo tomó el entrenamiento ni cuánto costó. Esta omisión es interesante, ya que el informe técnico proporciona muchos detalles en otros aspectos.
¿Por qué 50 mil millones de parámetros y no más?
Los investigadores adoptaron las leyes de escalado de Chinchilla y encontraron que 50 mil millones de parámetros era un buen tamaño, considerando la cantidad de datos financieros disponibles.
¿Vale la pena entrenar un LLM desde cero en datos combinados del dominio?
BloombergGPT demostró un excelente rendimiento en el dominio objetivo (finanzas). No obstante, no está claro si este enfoque es mejor que a) entrenar previamente un modelo preentrenado en datos específicos del dominio o b) ajustar fino un modelo preentrenado en datos específicos del dominio. Como dijo Albert Einstein: «La información no es conocimiento. La única fuente de conocimiento es la experiencia«. En este caso, la experiencia nos dice que BloombergGPT ofrece un plan de trabajo bien descrito para aquellos que deseen utilizar un enfoque de entrenamiento previo combinado.
Conclusión
Entrenar un LLM en datos específicos del dominio desde cero tiene sus ventajas y desventajas. Si bien BloombergGPT demuestra que es posible obtener un rendimiento sobresaliente en tareas específicas del dominio, aún quedan preguntas sobre si otros enfoques podrían haber sido más eficientes en términos de costos y recursos.
En última instancia, cada proyecto debe evaluar sus propias necesidades y objetivos para determinar si este enfoque es adecuado para ellos.
Comentarios