IA Para Audio

HierVST, Innovación en la Transferencia de Estilo de Voz

0

Introducción

La clonación de voz está alcanzando niveles impactantes. En este sentido, HierVST se presenta como un sistema revolucionario de transferencia de estilo de voz sin necesidad de transcripciones de texto.

¿Qué es HierVST?

HierVST es un sistema de transferencia de estilo de voz cero-shot. Esto significa que puede transferir el estilo de voz de un hablante objetivo a un hablante fuente sin necesidad de datos de entrenamiento del hablante objetivo.

Funcionamiento de HierVST

HierVST es un modelo de transferencia de estilo de voz cero-shot de fin a fin, adaptable y jerárquico. No necesita transcripciones de texto, solo se utiliza el conjunto de datos de voz para entrenar el modelo. Este entrenamiento se realiza utilizando inferencia variacional jerárquica y representación auto-supervisada.

Además, HierVST incluye un generador adaptativo jerárquico que genera la representación de tono y audio de onda de forma secuencial. Este modelo también aprovecha la generación incondicional para mejorar la capacidad acústica relativa al hablante en la representación acústica.

Ventajas de HierVST

 

Gracias a su estructura adaptativa jerárquica, HierVST puede adaptarse a un nuevo estilo de voz y convertir el habla de manera progresiva. Los resultados experimentales muestran que nuestro método supera a otros modelos de transferencia de estilo de voz en escenarios cero-shot.

Comparativa con otros modelos

Hemos comparado HierVST con varios modelos de Conversión de Voz como AutoVC, VoiceMixer, DiffVC, Speech Resynthesis y YourTTS. HierVST ha demostrado superar a estos modelos en términos de transferencia de estilo de voz sin necesidad de entrenamiento previo.

Conclusión

HierVST representa un gran avance en el campo de la transferencia de estilo de voz, aportando un enfoque innovador que permite adaptarse y convertir estilos de voz de manera eficiente y precisa, sin necesidad de entrenamiento previo o transcripciones de texto. Este modelo abre nuevas posibilidades en el campo de la síntesis de voz y la clonación de voz.

Para más información, visita hiervst.github.io.

DimensionIA

La revolución de CM3León: Más Eficiente Usando un Modelo de Mezcla Enmascarada Causal (CM3).

Previous article

ToolLLM: Cómo Mejorar los Grandes Modelos de Lenguaje para Dominar más de 1600 APIs del Mundo Real

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up