La revolución de la generación de imágenes personalizadas ha llegado, y su nombre es FaceChain. Avances recientes han demostrado la sorprendente capacidad de estos modelos para aprender y recrear identidades humanas, a partir de colecciones de retratos. Sin embargo, estas soluciones todavía presentan desafíos, y es aquí donde FaceChain se destaca.
En este artículo, nos adentramos en este innovador marco de trabajo de generación de retratos personalizados, que combina una serie de modelos de generación de imágenes y un conjunto de modelos de comprensión perceptual relacionados con el rostro.
Un Acercamiento a FaceChain
FaceChain se introduce como un sistema que encapsula el proceso de generación de retratos personalizados, basándose en el modelo Stable Diffusion. Su objetivo es mejorar la estabilidad del estilo y la consistencia de la identidad durante la generación de texto a imagen, adoptando una estrategia denominada LoRA.
Composición de FaceChain
La estrategia LoRA, eficiente en parámetros, permite ajustar finamente el modelo Stable Diffusion. A través de la composición de múltiples modelos LoRA, se aprende sobre el estilo del retrato y las identidades humanas. Estos dos modelos se entrenan por separado a través del entrenamiento de texto a imagen en imágenes de un estilo dado y de identidades humanas.
Procesamiento y Entrenamiento de Datos en FaceChain
En el marco de trabajo de FaceChain, se incorpora una variedad de modelos relacionados con el rostro. Esto garantiza que las imágenes faciales que se utilizan en el proceso de entrenamiento están normalizadas para cumplir con ciertos estándares de calidad.
Durante la fase de entrenamiento, el modelo LoRA de estilo actúa como la pieza clave para producir estilos estables de retratos. Mientras que el modelo LoRA de la cara se entrena en línea utilizando las imágenes cargadas por los usuarios.
Inferencia y Procesamiento Posterior en FaceChain
Durante la inferencia, se fusionan los pesos de los dos modelos LoRA en el modelo Stable Diffusion. Luego, se utiliza este último para generar los retratos personales preliminares. Después de esta generación, FaceChain integra varios módulos de post-procesamiento para mejorar los detalles faciales y las similitudes de los retratos.
El Futuro de FaceChain
A pesar de los desafíos existentes, los autores de FaceChain ven un futuro prometedor. Consideran que su trabajo actual solo está rascando la superficie de lo que se puede lograr en la generación de texto a imagen personalizada. Aspiran a expandir FaceChain para que sirva como referencia y entorno de pruebas para la comunidad.
No cabe duda de que FaceChain es un paso adelante en la generación de retratos personalizados. Es como si tuvieras un pintor invisible que, con solo unas pocas fotos tuyas, puede crear retratos personalizados que capturan tu esencia.
Recursos:
🐣Paper de investigación = https://arxiv.org/pdf/2308.14256.pdf
🧬Código en Github: https://github.com/modelscope/facechain
🦒Google Colab: https://colab.research.google.com/github/modelscope/facechain/blob/main/facechain_demo.ipynb
Comentarios