En una entrevista para la BBC Paul McCartney, miembro original de The Beatles, ha declarado que gracias a la inteligencia artificial (IA) se ha podido reconstruir la voz de John Lennon para el que será “el último disco” de la banda. Aunque estos contenidos se han difundido como si fuera una “canción compuesta por IA” o que esta tecnología ha sido capaz de “resucitar a Lennon”, en realidad lo que se ha conseguido es separar la voz del artista del resto de instrumentos en una grabación casera. Un proceso que se conoce como De-mix, que se basa en aprendizaje automático (una rama de la inteligencia artificial) y redes neuronales, y que os explicamos a continuación.
Cómo la IA ha permitido restaurar una grabación casera de John Lennon
Durante su paso por la BBC el 13 de junio, a Paul McCartney se le preguntó por su opinión respecto a la inteligencia artificial. Durante la conversación, el músico ha revelado que gracias a esta tecnología se ha podido restaurar una antigua maqueta de John Lennon, que había sido grabada en un casete hace más de 40 años [min 29:30].
“Cuando nos juntamos para hacer el que será el último álbum de The Beatles, era una demo que John tenía, y en la que empezamos a trabajar. Hemos sido capaces de separar su voz y tenerla pura a través de esta IA. Y hemos podido mezclar el disco como se haría normalmente”, ha asegurado el músico.
A diferencia de las versiones de artistas hechas con inteligencia artificial, que clonan la voz de los cantantes a partir de otras grabaciones, en este caso la máquina se ha entrenado para conseguir separar la voz de John Lennon del resto de instrumentos y así obtener una muestra limpia de su voz, según asegura McCartney. Una técnica que ya fue utilizada durante la realización del documental Get Back sobre el grupo británico, dirigido por Peter Jackson y estrenado en 2021. “Pudo separar las voces con IA, y decirle a la guitarra ‘esto es una voz, eso es una guitarra, quita la guitarra”, ha asegurado McCartney en la entrevista.
El proceso utilizado De-mix se basa en aprendizaje automático que identifica los elementos de la canción y los separa
Este proceso se conoce como De-mix y, según recoge Abbey Road Studios, es una técnica que emplea “algoritmos entrenados con instrumentos específicos” para identificar y separar los elementos de una grabación. Una técnica que permite analizar antiguas pistas de audio en las que todos los instrumentos se grabaron a la vez, dividirlos uno a uno y así restaurar estas canciones.
Alejandro Padilla, ingeniero de sonido y maldito que nos ha prestado sus superpoderes, explica que este proceso de De-mix se basa en el machine learning (aprendizaje automático), y que en resumen se trata “de una operación matemática muy grande, pero relativamente sencilla”, diseñada que para que al introducir un archivo de audio “te devuelva diferentes instrumentos separados”. Un funcionamiento similar al de los modelos entrenados para identificar objetos dentro de imágenes, y que son capaces de diferenciar un objeto.
El propio Peter Jackson explicó cómo emplearon esta técnica durante la producción del documental Get Back para “coger una pista mono”, aquella en la que toda la música suena por un único canal, y “separar los instrumentos” gracias a esta tecnología. Un proceso que permitió aislar las voces de John Lennon y Paul McCarney del resto de la banda [min 2:53].
Según el director, esta tecnología no solo logró recoger muestras individuales de la voz de los artistas durante las actuaciones, sino que también permitió descubrir conversaciones inéditas entre los miembros de la banda, que intentaban ocultar haciendo ruido con los instrumentos para que no les escucharan.
Padilla destaca que “mezclar señales de audio” a la hora de grabar “es muy sencillo”, pero separarlas una vez ya han sido registradas “ha sido completamente imposible hasta hace relativamente poco”. “Hoy día puedes encontrar páginas web o plugins que lo hacen en unos segundos”, incide el ingeniero, que remarca que en este caso la IA no ha “compuesto” o “creado” algo nuevo, a diferencia de otros modelos como ChatGPT o DALL-E, y como se ha asegurado. Simplemente se ha procesado una señal de audio ya existente.
En este artículo ha colaborado con sus superpoderes el maldito Alejandro Padilla, ingeniero de sonido.
Gracias a vuestros superpoderes, conocimientos y experiencia podemos luchar más y mejor contra la mentira. La comunidad de Maldita.es sois imprescindibles para parar la desinformación. Ayúdanos en esta batalla: mándanos los bulos que te lleguen a nuestro servicio de Whatsapp, préstanos tus superpoderes, difunde nuestros desmentidos y hazte Embajador.