GeneralIA Para Audio

SoundStorm: Inteligencia Artificial para la Creación de Diálogos Naturales en Tiempo Récord

0

Adentrémonos en el mundo de SoundStorm y la creación de diálogos naturales. SoundStorm es una eficiente solución para la generación de audio no autoregresivo que promete cambiar la forma en que creamos y procesamos el sonido.

Un enfoque innovador para la generación de audio

SoundStorm es un modelo que se basa en la atención bidireccional y la decodificación paralela basada en la confianza para generar tokens de un códec de audio neuronal. A diferencia de los enfoques de generación autoregresiva como AudioLM, SoundStorm produce audio de igual calidad y con mayor consistencia en voz y condiciones acústicas, siendo hasta 100 veces más rápido. De hecho, es capaz de generar 30 segundos de audio en tan solo 0.5 segundos al utilizar un TPU-v4. Para profundizar en este tema, se puede consultar el artículo de investigación.

Diálogos sintetizados de alta calidad

Cuando se combina con el modelo de texto-a-semántica de SPEAR-TTS, SoundStorm es capaz de sintetizar diálogos de alta calidad y naturales, permitiendo controlar el contenido hablado, las voces de los hablantes y los turnos de los mismos a través de anotaciones en el guion. Al sintetizar segmentos de diálogo de 30 segundos, el tiempo de ejecución es de solo 2 segundos en un único TPU-v4.

Si piensas que este dialogo es creado por actores sorpréndete con lo que es capaz la IA en la actualidad.

Generación de audio con y sin indicaciones

SoundStorm demuestra su capacidad para generar audio a partir de los tokens semánticos de AudioLM, tanto con como sin indicaciones de voz de 3 segundos. En el caso no guiado, el modelo selecciona diferentes voces, mientras que en el caso guiado, mantiene la voz del hablante con alta consistencia. Además, lo hace a una velocidad mucho mayor que el generador acústico de AudioLM. Puedes encontrar ejemplos en esta página.

Comparación con las líneas de base

SoundStorm supera a AudioLM en términos de consistencia acústica y preservación de la voz del hablante en el caso guiado. Además, produce audio de mayor calidad en comparación con la decodificación codiciosa de RVQ a nivel de modelo.

Impacto y consideraciones éticas

Como cualquier tecnología disruptiva, SoundStorm tiene implicaciones éticas y riesgos potenciales. El modelo puede verse afectado por sesgos presentes en los datos de entrenamiento, como acentos y características vocales. Además, la capacidad de imitar una voz puede tener aplicaciones maliciosas, como eludir identificaciones biométricas o suplantar identidades.

Por otro lado, se ha confirmado que el audio generado por SoundStorm sigue siendo detectable por un clasificador dedicado (98.5% de precisión). Como parte de un sistema más amplio, se espera que no introduzca riesgos adicionales a los ya discutidos por Borsos et al. (2022) y Kharitonov et al. (2023).

Como dijo el filósofo Aristóteles: «La calidad no es un acto, es un hábito«. SoundStorm no solo busca la calidad en la generación de audio, sino también en cómo aborda y mitiga los riesgos asociados con su uso.

Reflexionando sobre el futuro del audio

SoundStorm marca un hito en la generación de audio, al ofrecer una solución rápida y eficiente sin sacrificar la calidad. A medida que esta tecnología evoluciona y se convierte en parte integral de nuestra vida cotidiana, debemos estar atentos a los desafíos éticos y las oportunidades que presenta.

DimensionIA

¡Convierte tu Hogar en el más Inteligente con ChatGPT y HomeKit!

Previous article

Innovando en SEO: la Fórmula Mágica de Zapier que une Long Tail y la Inteligencia Artificial

Next article

Comentarios

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Login/Sign up