VALL-E 2 de Microsoft puede recrear de manera convincente voces humanas usando sólo unos segundos de audio, afirman sus creadores.
(Crédito de la imagen: Varunyu vía Getty Images)
Microsoft ha desarrollado un nuevo generador de voz de inteligencia artificial (IA) que aparentemente es tan convincente que no puede lanzarse al público.
VALL-E 2 es un generador de texto a voz (TTS) que puede reproducir la voz de un hablante humano utilizando solo unos segundos de audio.
Los investigadores de Microsoft afirmaron que VALL-E 2 era capaz de generar «un habla precisa y natural con la voz exacta del hablante original, comparable al desempeño humano», en un artículo que apareció el 17 de junio en el servidor de preimpresión arXiv . En otras palabras, el nuevo generador de voz de IA es lo suficientemente convincente como para confundirse con una persona real, al menos, según sus creadores.
«VALL-E 2 es el último avance en modelos de lenguaje de códecs neuronales que marca un hito en la síntesis de texto a voz (TTS) sin disparos, logrando por primera vez la paridad humana», escribieron los investigadores en el artículo. «Además, VALL-E 2 sintetiza constantemente un habla de alta calidad, incluso para oraciones que tradicionalmente son difíciles debido a su complejidad o frases repetitivas».
La paridad humana en este contexto significa que el habla generada por VALL-E 2 igualó o superó la calidad del habla humana en los puntos de referencia utilizados por Microsoft.
El motor de inteligencia artificial es capaz de hacer esto gracias a la inclusión de dos características clave: «Muestreo consciente de la repetición» y «Modelado de código agrupado».
El muestreo basado en la repetición mejora la forma en que la IA convierte el texto en voz al abordar las repeticiones de «tokens» (pequeñas unidades de lenguaje, como palabras o partes de palabras), lo que evita bucles infinitos de sonidos o frases durante el proceso de decodificación. En otras palabras, esta función ayuda a variar el patrón de habla de VALL-E 2, lo que hace que suene más fluido y natural.
Mientras tanto, el modelado de código agrupado mejora la eficiencia al reducir la longitud de la secuencia (o la cantidad de tokens individuales que el modelo procesa en una sola secuencia de entrada). Esto acelera la velocidad con la que VALL-E 2 genera el habla y ayuda a gestionar las dificultades que surgen al procesar largas cadenas de sonidos.
Los investigadores utilizaron muestras de audio de las bibliotecas de voz LibriSpeech y VCTK para evaluar la compatibilidad de VALL-E 2 con las grabaciones de hablantes humanos. También utilizaron ELLA-V (un marco de evaluación diseñado para medir la precisión y la calidad del habla generada) para determinar la eficacia con la que VALL-E 2 manejaba tareas de generación de voz más complejas.
«Nuestros experimentos, realizados en los conjuntos de datos LibriSpeech y VCTK, han demostrado que VALL-E 2 supera a los sistemas TTS de cero disparos anteriores en cuanto a solidez del habla, naturalidad y similitud entre hablantes», escribieron los investigadores. «Es el primero de su tipo en alcanzar la paridad humana en estos parámetros».
Los investigadores señalaron en el artículo que la calidad de los resultados de VALL-E 2 dependía de la duración y la calidad de las indicaciones del habla, así como de factores ambientales como el ruido de fondo.
«Un proyecto puramente de investigación»
A pesar de sus capacidades, Microsoft no lanzará VALL-E 2 al público debido a posibles riesgos de uso indebido. Esto coincide con las crecientes preocupaciones en torno a la clonación de voz y la tecnología deepfake . Otras empresas de inteligencia artificial como OpenAI han impuesto restricciones similares a su tecnología de voz.
«VALL-E 2 es puramente un proyecto de investigación. Actualmente, no tenemos planes de incorporar VALL-E 2 a un producto o ampliar el acceso al público», escribieron los investigadores en una publicación de blog . «Puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico».
Dicho esto, sugirieron que la tecnología de voz de IA podría tener aplicaciones prácticas en el futuro. «VALL-E 2 podría sintetizar el habla que mantiene la identidad del hablante y podría usarse para aprendizaje educativo, entretenimiento, periodismo, contenido de autoría propia, funciones de accesibilidad, sistemas de respuesta de voz interactiva, traducción, chatbot, etc.», agregaron los investigadores.
Continuaron: «Si el modelo se generaliza a hablantes invisibles en el mundo real, debería incluir un protocolo para garantizar que el hablante aprueba el uso de su voz y un modelo de detección de voz sintetizada».
https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say