¿Cómo pueden colaborar las nuevas tecnologías vinculadas a la inteligencia artificial generativa en los procesos creativos? ¿Aparecen nuevas prácticas de creación o se re-significan las que ya conocemos? ¿Qué lugar puede ocupar la incorporación de esta tecnología en los artistas? ¿Es el uso alrededor de la VOZ uno de los principales avances o es la posibilidad “promptear” y escuchar un track en segundos?
Desde FUTURX y junto a LARROSA MUSIC GROUP llevamos adelante la primera investigación colaborativa de IA+Música en Latinoamérica. Para una parte de esta investigación y experimentación invitamos a Amplify (colectivo/espacio de visibilización de mujeres y disidencias en la música electrónica) a colaborar y a sumergirse con nosotrxs en una experiencia creativa que, además, genere resultados que puedan servirle a otras personas.
Este artículo es el primer resumen y diario del proceso que hacemos desde FUTURX sobre estos experimentos que vamos a abordar en detalle en el reporte IA + Música e incluye:
Detalles sobre procesos vinculados a la creación de una voz única de una cantora latinoamericana.
La creación de una nueva obra utilizando herramientas de Inteligencia Artificial generativa.
La participación de una artista en el desafío de Grimes que termina en un track lanzado oficialmente junto a la artista.
Los resultados que esperamos de este proyecto son dos, una herramienta y una obra que funcionan de manera complementaria:
Cantora Latinoamericana: consiste en el entrenamiento de SO Vits, una IA generativa de clonación de voz, con audios de diez mujeres clave de la música latinoamericana. El objetivo de este proceso es experimentar las posibilidades creativas y alcance de estas herramientas y reflexionar sobre las implicancias éticas de este tipo de proyectos.
Creación Amplifyer: obra sonora basada en procesos sonoros y creativos atravesados por la experimentación con diferentes herramientas IA generativas, y otros procesos por parte de tres artistas del colectivo Amplify. Con este proceso buscamos indagar, desde la práctica creativa, que es lo nuevo que pueden aportar las IAs generativas en procesos creativos y en el flujo de trabajo de creación. Participan de este proceso Berenice Llonens, Pol Lain y Maia Koenig.
Los objetivos para esta etapa son:
Explicar algunos conceptos clave para entender este tipo de procesos y cómo funcionan las IAs generativas aplicadas a la música.
Reponer el paso a paso de los procesos de experimentación que desarrollamos.
Plantear las principales preguntas y dilemas que surgen a partir de experimentar con estas tecnologías
Las posibilidades alrededor de la VOZ es uno de los grandes avances que trae esta tecnología, desde la posibilidad de clonarlas, mezclarlas, intercambiarlas, extraerlas desde un track, etc. Lo más conocido está ligado al DEEP FAKE pero las posibilidades a la hora de crear nuevas son infinitas.
La estandarización vs. la personalización en las herramientas aparecen en una tensión constante. Las herramientas que plantean mejor interfaz visual apuntan a una estandarización y manejan poca versatilidad, sin embargo las que tienen mayor personalización aún no tienen buena UX y requieren conocimiento específico y especialización para el uso.
En la escucha de audios terminados que no busquen “deep fake” a veces no es tan sencillo de reconocer si efectivamente se usó una IA para ese proceso, y esto requiere ciertos campos de explicación.
Conseguir resultados que sean “de calidad”, requieren una alta intervención de las personas”. Se pueden conseguir resultados rápidos, pero como dijimos son estándares y de calidad media o baja (claro que esto va a cambiar y seguramente en poco tiempo)
Es clave reconocer y explicitar el lugar que le damos a una IA generativa para entender el tipo de procesos creativos que estamos realizando.
Tipos de IA aplicadas a la música.
Tipos de IA generativas de música.
Entrenamiento de IA generativa en música.
1.Tipos de IA aplicadas a la música: Ya está claro, que la tecnología de IA está instalada en la industria musical desde hace tiempo. Dicho esto…. Existen al menos tres grupos de herramientas orientadas a la música.
Herramientas de audio en proceso (Izotope, Melodyne, Moises, audioshake entre otras)
Herramientas algorítmicas con foco en los usuarios. (utilizadas por plataformas como TikTok, Spotify, Youtube, Apple Music, Amazon, etc)
Herramientas de IA generativa para creación/clonacion (SO Vits, Ktonal, ElevenLabs, Kits.IA, etc)
Esta diferenciación es analítica, y a la vez dinámica, al dia de la fecha, ya existen plugins que a partir de un prompts de texto regulan el seteo de un delay o una reverb, las plataformas y redes sociales están incorporando herramientas de creación de video, música etc y también existen desarrollos con foco en gestión como Wolfi un asesor musical IA, desarrollado por LARROSA PRO, y así… #futurxydelirio
seguimos…
2. Tipos de IA generativas de música: La emergencia y la accesibilidad de la inteligencia artificial generativa propone una serie de novedades con respecto al uso, el tipo de herramientas y posibilidades creativas. Existen diferentes tipos de IAs generativas de música:
IAs que generan audio a partir de otro audio(input) vía entrenamiento previo (pero el output se puede generar casi en tiempo real).
IAs que generan audio a partir de texto, se elije una voz y se envía texto, en general estos modelos están ligados a la voz hablada y no tanto la voz cantada.
IAs que generan audio a partir de prompts ligados a moods (estado de ánimo) entre otras!.
3. Entrenamiento de IA generativa en música
Entrenar una IA de generación de audio implica proporcionar a la IA una gran cantidad de datos de audio (inputs), sobre los cuales la IA va a: entrenar/practicar/trabajar. Más específicamente, estas aplican algoritmos de aprendizaje automático (machine learning y deep learning) para que la IA pueda detectar patrones y características en los datos de audio. A medida que la IA procesa más datos, se ajusta y mejora su capacidad para generar nuevo audio.
Ok… vamos a los experimentos?
Desde FUTURX buscamos poner foco en el valor reflexivo al contar un proceso creativo o lanzar una creación. Para el desarrollo de estos procesos nos guiaron, preguntas en torno al uso,el flujo creativo y una enfoque sobre la idea de creación y el rol del creadxr desde un perfil crítico, potenciado también por las relaciones entre usuarios, tecnologías, dispositivos y agentes que dan forma a la creación.
El principal foco de esta investigación está relacionado a visibilizar la intersección de la inteligencia artificial y la música en nuestra región. El proceso que encaramos desde esta etapa tiene dos aristas que están conectadas bajo esa visión, la exploración artística con las preguntas alrededor de uso creativo por artistas locales y a su vez la posibilidad de generar un insumo o una herramienta única para que otrxs artistas utilicen, es así que aparece la protagonista de esta etapa:
En este caso explorando el universo de la inteligencia artificial generativa, nos propusimos crear una Cantora Latinoamericana a partir del entrenamiento de una IA de clonación de voces, incluyendo voces de 9 artistas emblemáticas de la historia musical latinoamérica.
Para crear la base de datos para alimentar la IA, recolectamos setenta minutos de audios de entrevistas, y de voz cantada, (con el principal objetivo de que la voz esté limpia). Usamos fragmentos de voces de V. Parra, Chavela Vargas, M. Sosa, Elza Soares, Selena Quintanilla, Rita Lee, Tita Merello, Gilda, y un conjunto de Copleras Argentinas. Para la voz cantada se hicieron limpiezas de audio utilizando principalmente herramientas como Moises y Adobe podcast.
Poniendo foco en valor conceptual y el potencial reflexivo de estos experimentos nos guiaron preguntas cómo:
¿Es posible crear una voz única a partir de referencias de múltiples registros vocales?
¿Qué tipo de resultado puede dar, más allá del valor conceptual?
¿Cuánto tiempo de entrenamiento se requiere para llegar a los resultados esperados?
Cuando condicionan los resultados la diversidad de inputs(diferentes registros de voces, texturas, voz hablada, cantada etc)?
Para este proceso exploramos en profundidad SO Vits, un modelo de conversión de voz cantada que utiliza un codificador de contenido (SoftVC) para extraer características del habla del audio de origen. En otras palabras, SO Vits permite la clonación de voces a través de aprendizaje profundo (deep learning), a partir de un set de audios de referencia, generando un modelo de voz. Entonces, puedes subir un audio de voz cualquiera y obtener un nuevo audio, con el mismo contenido, pero que suene como la voz del modelo entrenado. Esta herramienta está programada en código Python y, en este experimento, se ejecutó en la plataforma de Google Colab.
Etapas del proceso:
Definición de concepto: Crear la voz de una cantora Latinoamericana.
Creación de un dataset: Búsqueda y edición de audios.
Definición de la herramienta y método de trabajo.
Entrenamiento: análisis de los audios.
Pruebas en obra y mayor profundidad de entrenamiento.
Etapas restantes:
Terminar la etapa de entrenamiento.
Generar una interfaz visual que facilite el uso.
Visibilizar y compartir la herramienta.
*El proceso de intervenir activamente en el código, a través de la experimentación, permite un enfoque más creativo del IA. De esta manera, podemos influir más en el proceso de cómo la IA aprenderá y sobre qué aprenderá. Así, podemos obtener el producto final que mejor se ajuste a nuestras necesidades. Si deseamos una mayor influencia del input, lo hacemos de una manera. Si no lo deseamos, lo hacemos de otra manera. Si deseamos más ruido, podemos hacerlo. Lo mismo si queremos un sonido más robotizado o natural. Si lo hacemos a partir de una IA "cruda", podemos experimentar más. Quizás si lo hacemos a partir de una interfaz cerrada, ya programada por una empresa, tengamos menos poder creativo.*Pedro Fernandes (LarrosaPro)
Obviamente, el principal motor de esta investigación y colaboración es este, la creación de obras y las posibilidades que se abren en este campo en términos creativos y reflexivos. Estamos trabajando en una obra sonora creada a partir de la experimentación con diferentes herramientas de IA generativas, y otros procesos. Con este proceso buscamos indagar, desde la práctica creativa, que es lo nuevo que pueden aportar las IAs generativas en procesos creativos y en el flujo de trabajo de creación.
Etapas del proceso:
Limpieza de voces, separando pistas.
Procesamiento de audio.
Entrenamiento de IA generativa creada por Ktonal
Clonación de voces
Composición de Obra
Lanzamiento
Para el desarrollo de esta obra, hasta el momento, se ha explorado principalmente una IA generativa, creada por ktonal, un grupo de investigación de compositores y programadores que trabajan con proyectos de código abierto en el lenguaje Python.
La herramienta, crea como resultado fragmentos de audio o samples cortos “outputs”, a modo de continuación de la composición de origen. Los Outputs son audios generados a partir de un modelo x que luego del entrenamiento reproduce (o continua) lo aprendido (“escuchado”). Durante el experimento se entrenó con audios de ritmos folklóricos y voces de cantantes latinoamericanas.
“Dentro de la exploración que realizamos, y a diferencia de otras IAs que utilizan prompts a través de textos, moods que conducen a resultados específicos y similares a músicas más convencionales; las arquitecturas implimentadas por Ktonal funcionan con hiperparametros modificables que hacen cambiar el resultado que se escucha. La música generada de los entrenamientos en esta IA, están más cerca de la música experimental, atonal, con fragmentos frizados, rotos, o interpretaciones cercanas al material que fue entregado como input. Los outputs varian y "mejoran" de acuerdo al tiempo de entrenamiento, lo que considero un proceso de aprendizaje similar o comparable a la del habla.” Berenice Llorens
Encuentro interesante trabajar sobre la idea de utopía, construir herramientas, dispositivos sonoros para recuperar también las voces, las identidades que tenemos. Maia Koenig
En paralelo a este proceso y un poco motivada por alguno de los interrogantes de esta investigación se desarrolló otro proceso de experimentación con herramientas IA en la música. En este caso Pol Lain artista del colectivo Amplify, se propuso producir un track a partir de Elf Tech, una herramienta IA creada por la artista Grimes.
El proyecto de Grimes permite que otros artistas y fans produzcan sus propios tracks y puedan, a partir de un data asset de su voz, crear temas que incluyan su voz clonada con esta herramienta. En ese proceso Pol, produjo un track, a partir de una letra que también propuso la artista, y recientemente fue recibido, y distribuido a través de create safe que le permite monetizar el 50% de las recaudaciones del track. La propuesta de Grimes fue creciendo y tomando concepto a medida que otros artistas y fans exploraban la herramienta que creó. Al día de hoy esa experiencia evolucionó a un espacio de intercambio de aristas y la construcción de un futuro metaverso/cómic, obra colaborativa, que incluye todas las experiencias.
Lo interesante de la experiencia con ELF.Tech es por un lado, la posiblidad de hacer una colaboración con la artista y compartir un poco ese reconocimiento que la artista tiene a partir de tener una colaboración con ella, por otro, la situación de estar creando en ese entorno hizo posible el intercambio con muchos artistas dentro de GrimesCord, la plataforma de la comunidad de la artista. También, a partir del Manual del Caos una especie de manifiesto que compartió la artista para este experimento, disparó a qué muchos artistas y fans creen obras que van desde juegos de rol,cómics de ciencia ficción y piezas visuales entre otros universos. Pol Lain
Como estamos viendo, IA + MÚSICA, va a condensar mucha data. En este artículo nos propusimos abrir los procesos que estamos desarrollando y compartir los conceptos, preguntas y aprendizajes que en tiempo real estamos atravesando.
En el proceso entendido algunos dilemas que atraviesan las experiencias de uso de estas herramientas y donde vamos a poner foco en los próximos avances.
Notamos que existe una dinámica de tensión entre la estandarización y la posible personalización (modelo) en las herramientas de IA generativa de música desarrolladas hasta el momento.
Según las plataformas que exploramos, aquellas que ofrecen herramientas mas cercanas a la estandarización es decir que copian la voz de X artista manejan pocos márgenes de versatilidad pero a su vez son más fáciles de usar y experimentar. Por otra parte, las herramientas que nos permitieron entender en cierta forma como aprende/entrena la máquina ofrecen resultados menos estandarizados y más aleatorios aunque la plataforma de uso requiere ciertos conocimientos de programación para poder ser usadas.
Que una herramienta generativa IA otorgue resultados mas o menos estandarizados, depende del data asset con el que fue utilizado.
el lugar/protagonismo que se le otorgue a la herramienta va a incidir en el tipo de obra que se desarrolle.
Hoy la IA requiere de un humano interviniendo, tomando decisiones para tener buenos resultados.
Por último algunas preguntas y desafíos clave a responder para los próximos pasos de estos procesos:
¿Qué lugar ocupan lxs creadores en los procesos creativos que involucran IA? ¿Nos podemos pensar como creadores críticos como plantea Tomas Garcia o más bien como el rol del artista se convierte en algo similar a un curador artístico?
¿Cómo se garantiza que la voz clonada se utilice de manera ética y respetuosa, teniendo en cuenta la rica diversidad y tradición de las cantoras latinoamericanas?
En qué etapas de un proceso de creación utilizamos la herramienta…. dejamos que participe de los procesos creativos / o la utilizamos en los procesos conexos?
Hasta acá el primer resumen que hacemos desde FUTURX para presentar IA + MUSICA.
Participantes: Amplify: Berenice Llorens, Maia Koenig, L41N-9. Larrosa Pro: Pedro Fernandes Colaboradores en edición de audio: Mario Ruiz, Yorker. Equipo FUTURX: Nicolás Madoery + Anselmo Cunill