La creación de texto legible en imágenes sigue siendo un reto para los modelos de generación por difusión.
En este artículo, analizamos GlyphControl, un innovador marco propuesto por investigadores de Microsoft para abordar esta tarea de manera eficiente y controlable.
Introducción
Los modelos de difusión de texto a imagen han alcanzado una calidad fotorealista impresionante, pero carecen de la capacidad de generar texto legible de manera consistente. Varios enfoques recientes como eDiff-I y DeepFloyd IF buscaron modificar los encodadores de texto, pero aún existen errores de disposición. Para resolver esto, proponemos incorporar información adicional sobre glifos.
Marco GlyphControl
GlyphControl introduce dos innovaciones clave:
- Un marco que mejora los modelos de difusión mediante la extracción de información sobre la forma de los glifos de una imagen de condición de glifos, usando ControlNet.
- Un conjunto de datos de entrenamiento llamado LAION-Glyph que proporciona pares imagen-texto con detalles de OCR.
Formulamos la generación de texto visual como un problema de control condicional de glifos. Específicamente, proponemos controlar la generación con una imagen adicional de glifos. Esto actúa como un mapaespacial explícito para imponer modelos de difusión y generar texto visual coherente y bien formado.
Qué son los Glifos en las IAs generativas de imagen?
Un glifo, en el contexto de las Inteligencias Artificiales (IA) generativas de imagen, se refiere a una imagen generada por una IA que incorpora texto o palabras de una manera visualmente interesante y a menudo compleja.
Contribuciones clave
- GlyphControl supera a DeepFloyd IF, SDXL y Stable Diffusion en métricas de OCR, puntuación CLIP y FID, ahorrando más del 75% de parámetros.
- LAION-Glyph ofrece un banco de pruebas de alta calidad para la generación de texto visual, lo que ha impulsado avances significativos.
- Se demuestra un control preciso mediante instrucciones de glifos que permiten personalizar el contenido, ubicación, tamaño y disposición del texto.
- Se abre la puerta para diseños de imágenes automatizados mediante la generación de texto flexible según especificaciones del usuario.
Un mejor control con glifos
Una ventaja clave de GlyphControl es su capacidad de soportar instrucciones de glifos personalizadas, lo que permite especificar varias restricciones sobre el texto rendido. Esto incluye información característica, de línea y cuadro de texto.
Aprendizaje y evaluación
El equipo investigador entrenó en escalas crecientes de LAION-Glyph y evaluó la precisión de OCR, alineación imagen-texto con CLIP y calidad de imágenes con FID. Estos resultados demuestran que GlyphControl genera texto visual más legible y preciso que métodos anteriores.
Análisis cualitativo
Se comparó visualmente la generación frente a SD, SDXL, IF y herramientas de punta. GlyphControl supera errores comunes como letras faltantes u olvidadas, y genera texto legible según instrucciones específicas.
Limitaciones y trabajo futuro
Aún se debe abordar retos como el control de estilo y color de fuente, y la generación masiva de texto pequeño. Buscaremos aplicar GlyphControl a alta resolución y editor local de texto. Asimismo, mejorar la calidad de leyendas con modelos más poderosos.
Conclusión
GlyphControl demuestra ser efectivo para generar texto visual de manera controlable. Al incorporar mapas condicionales de glifos, mejora significativamente la precisión frente a métodos previos. Representa un paso importante hacia la creación fiable de textos visuales de alta calidad.
Enlaces:
- Paper de investigación: https://arxiv.org/pdf/2305.18259.pdf
Comentarios