IA Para Audio

VALL-E X: Síntesis Multilingüe de Texto a Voz y Clonación de Voz 🔊

0

¡Esto es impresionante! Ahora es posible clonar cualquier voz directamente en tu ordenador utilizando solo 3 segundos de audio de referencia, y todo es completamente de código abierto.

Te presentamos a VALL-E X ↗, una implementación de código abierto del modelo de texto a voz sin disparos de VALL-E X de Microsoft.

¿Por qué VALL-E X?

Microsoft propuso inicialmente VALL-E X, un modelo de texto a voz (TTS) multilingüe, en su estudio de investigación. Sin embargo, no publicaron ningún código ni modelos preentrenados. El equipo impulsor de este proyecto reconoció el potencial y el valor de esta tecnología y asumió el desafío de reproducir los resultados y entrenar su propio modelo.

¡Ahora están encantados de compartir su modelo VALL-E X con la comunidad, permitiendo a todos experimentar el poder de la próxima generación de TTS!

¿Cómo funciona?

Video de Marcel Pociot

VALL-E X viene repleto de funcionalidades de vanguardia:

  • TTS Multilingüe: Puedes hablar en tres idiomas – inglés, chino y japonés – con una síntesis de voz natural y expresiva.
  • Clonación de voz Zero Shot: ¡Solo necesitas una grabación corta de 3 a 10 segundos de un hablante no visto y VALL-E X creará un discurso personalizado, de alta calidad que suena exactamente como él!
    El concepto de Zero Shot podría traducir como «Clonación de voz sin entrenamiento previo». La idea es que con muy poca muestra de audio se puede sintetizar nueva voz que suene muy similar a la voz original, sin necesidad de recopilar horas de audio de esa persona para entrenar un modelo personalizado.
  • Control de Emoción del Discurso: ¡Experimenta el poder de las emociones! VALL-E X puede sintetizar el habla con la misma emoción que el indicio acústico proporcionado, agregando una capa extra de expresividad a tu audio.
  • Síntesis de Habla Translingüística zero shot: ¡Lleva a los hablantes monolingües en un viaje lingüístico! VALL-E X puede producir un discurso personalizado en otro idioma sin comprometer la fluidez o el acento.

¿Dónde puedo probarlo?

Si aún no estás listo para configurar el entorno en tu máquina local, ¡no hay problema! El equipo desarrollador ha cubierto otras opciones con demostraciones en línea. Puedes probar VALL-E X directamente en Hugging Face ↗ o Google Colab ↗, experimentando las capacidades del modelo sin complicaciones.

¿Qué más ofrece VALL-E X?

Además de las funcionalidades anteriores, VALL-E X también ofrece control de acentos, mantenimiento del entorno acústico y clonación de voz. Todo esto está basado en las técnicas que aparecen en el artículo de investigación ↗.

DimensionIA

Idea de Negocio con Inteligencia Artificial (4): Conviértete en el mejor fotógrafo publicitario de productos

Previous article

ChatGPT Para Empresas

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up