Foto: Caught in joy en unsplash.com

AudioLM: la nueva inteligencia artificial de Google capaz de crear música

Compartir
Foto: Caught in joy en unsplash.com
Foto: Caught in joy en unsplash.com

 

Un nuevo sistema de inteligencia artificial (IA), creado por investigadores de Google, demostró altos niveles de eficiencia para crear voz y música con un sonido natural después de recibir unos segundos de audio.La tecnología, que podría resolver problemas de derechos de autor en la musicalización de piezas, también se erige como una amenaza latente para los artistas musicales.

¿Qué implicaciones tiene la nueva inteligencia artificial creada por Google?

Por Gabriel Levy
www.andinalink.comwww.galevy.com

Como se ha explicado ampliamente en artículos anteriores, la inteligencia artificial (IA) hace referencia al tipo de procesamiento basado en algoritmos informáticos que puede desarrollar una máquina computacional, mediante un tipo de imitación electrónica de las funciones cognitivas humanas como percibir, razonar, aprender y resolver problemas[1].

La inteligencia artificial permea prácticamente todos los campos del conocimiento, automatizando muchas tareas que, hasta ahora, se creían de uso exclusivo de los seres humanos, incluyendo la conducción de un vehículo, la escritura de textos, la edición de imágenes, la creación de video y, por supuesto, la composición musical, un terreno en el que existen importantes avances, pero cuyo alcance era muy limitado.

El anuncio de Google

Recientemente, la corporación Alphabet, propietaria de Google y YouTube, presentó públicamente una nueva tecnología llamada AudioLM, la cual fue desarrollada por investigadores de esta compañía y que la capacidad de crear audio a partir de ejemplos específicos que le son presentados, incluidos algunos sonidos complejos como música de piano o personas hablando, de una manera que es casi indistinguible del original[2].

La tecnología promete acelerar el proceso de entrenamiento de la IA para generar audio y, luego, podría usarse para generar automáticamente música para acompañar diferentes tipos de videos.

Los antecedentes

El audio generado mediante el uso de inteligencia artificial es común en nuestras vidas; por ejemplo, las voces de los asistentes domésticos como Siri, Alexa o Google, usan procesamiento de lenguaje natural, una tecnología que permite reproducir, desde código, la voz humana. Por su parte, los sistemas de música de IA como Jukebox, de OpenAI, han producido resultados impresionantes en el campo de la música; sin embargo, hasta ahora la mayoría de las técnicas existentes requieren que las personas preparen transcripciones y etiqueten los datos de capacitación basados ​​en texto, lo que requiere mucho tiempo y trabajo. Por ejemplo, las máquinas de discos usan datos basados ​​en texto para generar letras.

El anuncio de AudioLM

Un artículo académico sobre AudioLM publicado por Google y que aún no ha sido revisado por pares[3], presenta una tecnología totalmente diferente que no requiere transcripción ni etiquetado, sino que utiliza el aprendizaje automático para comprimir archivos de audio (desde una base de datos de entrada previa) en segmentos o bloques.

Los sonidos, que han denominado «tokens», no pierden mucha información en el proceso. Estos datos de entrenamiento “tokenizados” luego se introducen en un modelo de aprendizaje automático que utiliza el procesamiento del lenguaje natural para aprender patrones de sonido.

“Los clips de audio publicados por el equipo suenan naturales. En particular, la música de piano generada con AudioLM sonaba más suave que la música de piano generada con las técnicas de IA existentes, que a menudo sonaba más desordenada”[4].

“Para generar audio, se alimenta unos segundos de sonido a AudioLM, que luego predice lo que sucederá a continuación”[5].

Este proceso es similar a la forma en que los modelos de lenguaje como GPT-3 predicen qué frases y palabras tienden a seguirse.

(GPT-3) es un modelo de lenguaje autorregresivo que emplea aprendizaje profundo para producir textos que simulan la redacción humana. Es la tercera generación de los modelos de predicción de lenguaje perteneciente a la serie GPT creados por OpenAI, un laboratorio de investigación de inteligencia artificial con sede en San Francisco (Estados Unidos).

Una mejora exponencial en el campo musical

En un artículo publicado por el medio especializado del MIT[6], Roger Dannenberg, investigador de música generada por computadora en la Universidad Carnegie Mellon, indicó que la calidad de sonido de AudioLM es mucho mejor que la de los programas de generación de música anteriores, afirmando que podríamos estar presenciando una tecnología exponencialmente superior a las demás. También afirmó que:

“AudioLM es muy bueno para recrear algunos de los patrones repetitivos inherentes a la música que crea la gente. Para generar música de piano realista, AudioLM debe capturar las muchas vibraciones sutiles de cada nota a medida que se tocan las teclas del piano. La música también debe mantener su ritmo y armonía a lo largo del tiempo. Fue realmente impresionante, en parte porque sugería que estaban aprendiendo algún tipo de estructura de varios niveles», dijo Dannenberg[7].

AudioLM no se limita solo a la música. Debido a que se entrenó en un corpus de grabaciones de lenguaje hablado humano, el sistema también puede generar un habla que sea consistente con el acento y la prosodia del hablante original, aunque las frases todavía pueden parecer incongruentes y sin sentido en este punto.

De acuerdo con los investigadores de Google, AudioLM está capacitado para comprender qué tipos de clips de sonido ocurren juntos con frecuencia y utiliza el proceso inverso para generar frases. También tiene la ventaja de poder aprender pausas y exclamaciones que son inherentes al lenguaje hablado, pero que no se traducen fácilmente a texto.

Rupal Patel, citado por el medio del MIT, y quien es investigador de ciencias del lenguaje y la información en la Universidad Northeastern[8], cree que el trabajo anterior que usa IA para generar audio solo puede capturar estos matices cuando se notan explícitamente en los datos de entrenamiento. En su lugar, AudioLM aprende automáticamente estas funciones a partir de los datos de entrada, lo que ayuda a producir resultados realistas.

«Hay mucho de lo que podríamos llamar información lingüística que no está en las palabras que pronunciamos, sino en otra forma de comunicación basada en la forma en que expresamos una intención particular o una emoción particular, por ejemplo, alguien podría reírse después de decir algo para demostrar que era una broma. Todo esto hace que el discurso sea natural», Neil Zeghidour co-creador de AudioLM [9].

Aplicaciones futuras de esta tecnología

La música generada por IA podría usarse para proporcionar una banda sonora de fondo más natural para videos y presentaciones de diapositivas. Una tecnología de generación de voz más natural podría ayudar a mejorar las herramientas de acceso a internet y los bots que trabajan en entornos de atención médica, de acuerdo con las afirmaciones de Patel al medio del MIT[10].

Pero, sin duda, en el campo audiovisual, en el que el tema de derechos de autor se ha convertido en una barrera económica, esta tecnología promete ser una eficaz solución.

El equipo de Google también espera crear sonidos más complejos, como bandas con diferentes instrumentos o sonidos que imiten las grabaciones de la selva tropical.

 Grandes oportunidades para la industria audiovisual

La sonorización del contenido audiovisual es uno de los mayores desafíos que enfrenta la industria mundial, no solo por lo costoso que resulta la compra de música con derechos, sino por la complejidad que revisten las legislaciones en materia de derechos de autor y conexos, que incluyen muchas variables de titularización, como la comunicación pública, la sincronización, la distribución, la comercialización, entre muchos otros derechos.

El uso de tecnología de inteligencia artificial podría solventar estos problemas toda vez que la creación partiría de un software y no de un humano, un tema sensible sobre el cual aún falta mucho por explorar.

Una tecnología que no está exenta de riesgos

En el citado artículo académico del MIT, Patel advierte que se deben considerar las implicaciones éticas de la tecnología. En particular, determinar si los músicos que hacen los clips usados ​​como datos de entrenamiento recibirán atribución o regalías del producto final, un problema que surge con la IA de texto e imagen. El discurso generado por IA que es indistinguible del real también podría volverse tan convincente que facilite la difusión de la desinformación.

En su artículo, los investigadores dicen que ya están pensando en estos problemas y trabajando para mitigarlos; por ejemplo, desarrollando técnicas para diferenciar entre los sonidos naturales y los producidos por AudioLM. Patel también recomienda agregar marcas de agua de audio a los productos generados por IA para que sean más fáciles de distinguir del audio natural.

En conclusión, la nueva tecnología de Google llamada AudioLM representa un avance exponencial en el campo de la música y la inteligencia artificial, permitiendo que los algoritmos creen no solo pistas de audio, sino también de voz, armonizando los elementos de forma mucho más natural que las tecnologías predecesoras, lo que podría convertirse en una solución a muchos de los problemas de musicalización que enfrentan otras industrias, como la audiovisual, al tiempo que supone un gran desafío ético, legal y económico para artistas y creadores que podrían ver amenazada su actividad profesional.

 

[1] Rusell, S. & Norving, P. (2010). Artificial intelligence: a modern approach. ISBN 0-13-604259-7.
[2] Borsos, Z., et. Al. (2022). Audio LM: a Language Modeling Approach to Audio Generation. En Google Research – Arxiv.org. Disponible en https://arxiv.org/pdf/2209.03143.pdf
[3] Op. Cit. Disponible en https://arxiv.org/pdf/2209.03143.pdf
[4] Op. Cit. Disponible en https://google-research.github.io/seanet/audiolm/examples/
[5] Op. Cit. Disponible en https://arxiv.org/pdf/2209.03143.pdf
[6] Xu. T. (7 de octubre de 2022). Google’s new AI can hear a snippet of song and then keep on playing. En MIT Technology Review. Disponible en https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
[7] Op. Cit. Disponible en https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
[8] Op. Cit. Disponible en https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
[9] Op. Cit. Disponible en https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
[10] Op. Cit. Disponible en https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/

Sobre el autor

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio
Abrir chat
1
Escanea el código
Hola 👋
¿En qué podemos ayudarte? Contáctanos y te atenderemos directamente