Adentrémonos en el mundo de SoundStorm y la creación de diálogos naturales. SoundStorm es una eficiente solución para la generación de audio no autoregresivo que promete cambiar la forma en que creamos y procesamos el sonido.
Un enfoque innovador para la generación de audio
SoundStorm es un modelo que se basa en la atención bidireccional y la decodificación paralela basada en la confianza para generar tokens de un códec de audio neuronal. A diferencia de los enfoques de generación autoregresiva como AudioLM, SoundStorm produce audio de igual calidad y con mayor consistencia en voz y condiciones acústicas, siendo hasta 100 veces más rápido. De hecho, es capaz de generar 30 segundos de audio en tan solo 0.5 segundos al utilizar un TPU-v4. Para profundizar en este tema, se puede consultar el artículo de investigación.
Diálogos sintetizados de alta calidad
Cuando se combina con el modelo de texto-a-semántica de SPEAR-TTS, SoundStorm es capaz de sintetizar diálogos de alta calidad y naturales, permitiendo controlar el contenido hablado, las voces de los hablantes y los turnos de los mismos a través de anotaciones en el guion. Al sintetizar segmentos de diálogo de 30 segundos, el tiempo de ejecución es de solo 2 segundos en un único TPU-v4.
Si piensas que este dialogo es creado por actores sorpréndete con lo que es capaz la IA en la actualidad.
Generación de audio con y sin indicaciones
SoundStorm demuestra su capacidad para generar audio a partir de los tokens semánticos de AudioLM, tanto con como sin indicaciones de voz de 3 segundos. En el caso no guiado, el modelo selecciona diferentes voces, mientras que en el caso guiado, mantiene la voz del hablante con alta consistencia. Además, lo hace a una velocidad mucho mayor que el generador acústico de AudioLM. Puedes encontrar ejemplos en esta página.
Comparación con las líneas de base
SoundStorm supera a AudioLM en términos de consistencia acústica y preservación de la voz del hablante en el caso guiado. Además, produce audio de mayor calidad en comparación con la decodificación codiciosa de RVQ a nivel de modelo.
Impacto y consideraciones éticas
Como cualquier tecnología disruptiva, SoundStorm tiene implicaciones éticas y riesgos potenciales. El modelo puede verse afectado por sesgos presentes en los datos de entrenamiento, como acentos y características vocales. Además, la capacidad de imitar una voz puede tener aplicaciones maliciosas, como eludir identificaciones biométricas o suplantar identidades.
Por otro lado, se ha confirmado que el audio generado por SoundStorm sigue siendo detectable por un clasificador dedicado (98.5% de precisión). Como parte de un sistema más amplio, se espera que no introduzca riesgos adicionales a los ya discutidos por Borsos et al. (2022) y Kharitonov et al. (2023).
Como dijo el filósofo Aristóteles: «La calidad no es un acto, es un hábito«. SoundStorm no solo busca la calidad en la generación de audio, sino también en cómo aborda y mitiga los riesgos asociados con su uso.
Reflexionando sobre el futuro del audio
SoundStorm marca un hito en la generación de audio, al ofrecer una solución rápida y eficiente sin sacrificar la calidad. A medida que esta tecnología evoluciona y se convierte en parte integral de nuestra vida cotidiana, debemos estar atentos a los desafíos éticos y las oportunidades que presenta.
Comentarios