Experiencias pioneras de algoritmos de recomendación en el campo de las artes desarrolladas en Chile – Denis Parra

El desarrollo de sistemas de Inteligencia Artificial y de algoritmos de recomendación han concentrado una visibilidad creciente en el campo artístico a raíz de distintas experiencias e iniciativas de laboratorio, especialmente tras la incorporación de modelos de Deep learning o aprendizaje profundo. La mayoría de los proyectos indagan en las posibilidades que surgen para los procesos de creación. A la vez, la industria de la entretención y de las plataformas de streaming han venido intensificando el uso de algoritmos para fidelizar audiencias mediante sistemas de recomendación individual. En Chile, las iniciativas son hasta ahora acotadas aunque muestran un alto potencial, como el desarrollo de algoritmos de recomendación de arte y sistemas de creación musical. ¿Qué incidencia tendrán estas experiencias en la ampliación y diversificación de públicos?

Sistemas de recomendación

¿Qué es un sistema de recomendación? ¿Por qué son importantes? Un sistema de recomendación, es aquel que ayuda a individuos, o grupos de personas, a encontrar ítems relevantes, en un espacio repleto de información. Es decir, son plataformas que facilitan la navegación por la red. Estos sistemas existen hace varias décadas, y aplicaciones como Netflix; Spotify o YouTube, son ejemplos donde el usuario se encuentra con un robusto catálogo de contenidos, pero difícilmente tenga el tiempo para revisarlo completo y decidir satisfactoriamente lo que se quiere.

Estas recomendaciones, en un sistema como Youtube, normalmente aparecen al visitar un video, en el cual se le despliega (a mano derecha) una lista de sugerencias similares al contenido consultado. En algunos casos, las recomendaciones se encuentran personalizadas y aparecen algunas de otro tipo, como cuando se abre el mismo video, pero a través de una cuenta de correo, o desde otro país. Es decir, existen distintos niveles de contextualización y personalización, al momento de recomendar. En Netflix, vemos que existen varias listas de recomendación, las cuales no aparecen en forma aleatoria, sino que, cada una de esas listas, el orden en que aparecen y la imagen que utilizan para presentar series o películas, son el resultado de un proceso que utilizó técnicas de inteligencia artificial.

 

Algoritmos de recomendación y sistemas de inteligencia artificial en la creación artística

Moodplay (moodplay.pythonanywere.com)

Moodplay es una interfaz interactiva que permite la exploración de bandas y solistas musicales, así como la recomendación de nuevos artistas, a partir de las emociones que las piezas musicales generan en el usuario. Es decir, el sistema puede sugerir música similar, aunque sea de géneros diferentes, pero lo hace a partir de un componente sensitivo como forma de representación, para orientar después, las recomendaciones. De esta forma, en Moodplay se privilegia la exploración del usuario, como un modo de interacción, en lugar de ofrecerle un ranking, como los que presenta Google, después de una búsqueda en su explorador.

El sistema identifica, a partir de distintos colores, tres formas de emociones: las de tipo “sublime” como paz, nostalgia, trascendencia. Las “unease”, como repulsión, tristeza, miedo o tensión. Y las de tipo “vitalidad”, que están asociadas a la activación de felicidad y poder. También existen las de tipo “estilo”, que son una combinación de las anteriores.

La distribución de emociones se realiza utilizando una escala denominada GEMS, y con las recomendaciones de artistas similares, según la API de Spotify y nuestra propia API. A su vez, el resultado de la exploración de artistas musicales en el sistema, por ejemplo, al buscar una banda como Radiohead, es presentado alojado en un mapa, junto a otros músicos y compositores, permitiendo la posibilidad de descubrir diversas alternativas. De la misma forma, se va manteniendo un registro de lo que visitan los usuarios, con algoritmos llamados ESNE, los que permiten los métodos de recomendación.

La primera versión del sistema Moodplay fue desarrollado en la Universidad Católica en colaboración con los investigadores Ivana Andjelkovic y Johon Donovan, de la Universidad de California en Santa Bárbara. La segunda versión de esta implementación fue perfeccionada en la misma universidad, junto al estudiante Raimundo Herrera, actualmente ingeniero en computación.

 

Explorador del Museo Nacional de Bellas Artes: Surdoc

A partir del proyecto anterior, empezamos a considerar distintas opciones, ya no solo para el dominio musical, sino también para el de las artes visuales. Uno de los objetivos fue apoyar la exploración y el descubrimiento de obras visuales creadas por artistas chilenos. Para esto, se utilizó como base el portal Surdoc del Museo Nacional de Bellas Artes (MNBA), que permitía ver las colecciones, de los diferentes museos en Chile, pero que, a pesar de tratarse de una buena herramienta de navegación, no permitía una exploración sencilla. Esta situación, motivó la realización de un explorador virtual para el MNBA, desarrollado por el estudiante de magister de la Universidad Católica, Ricardo Schilling.

Uno de los principales desafíos para el desarrollo del portal Surdoc fue la forma de distribución que tendrían las diferentes imágenes, para poder ubicarlas de forma estratégica y en términos selectivos, y así lograr una exploración más estructurada. Otra dificultad fue que las etiquetas no permitían identificar el tipo de la obra artística, ni su estilo, es decir, si era una obra cubista o surrealista, por ejemplo. Para eso utilizamos las denominadas “redes neuronales”.

Una “red neuronal” artificial, es un modelo de inteligencia artificial que está inspirado en las redes neuronales biológicas, pero que tienen una función diferente. Este, permite aprender a realizar predicciones —a partir de ejemplos de entrenamiento— y representar imágenes, para que, en un uso posterior junto a otros patrones de inteligencia artificial, se transforme en un sistema recomendador. Este proceso se realiza con grandes bases de datos, así como la llamada “big data”, que entrena de manera efectiva y eficiente a estas redes.

El año 2010, la red neuronal llamada AlexNet batió los récords en un concurso denominado Clasificación de Objetos del Data Set ImagineNet. Lo interesante fue que se descubrió que, a pesar de que la red fue entrenada para clasificar objetos en fotografías, después se empezó a utilizar con el objetivo de transferir ese aprendizaje a otras tareas.

 

Curator Net

Otra versión de las redes que hemos desarrollado y que también se constituye en una herramienta para las artes visuales es CuratorNet (Red Curadora). Este sistema se entrena a través de un data set, facilitado por la U Gallery,[1]UGallery es una galería de arte en línea, con sede en San Francisco y fundada el año 2006. Se constituye como una plataforma de comercio electrónico que conecta a los artistas directamente con … Continue reading gracias a un convenio, que tenemos con esta galería. Los datos permiten armar perfiles de los usuarios, utilizando cierta información, como las compras realizadas de obras artísticas, para que después, la red pueda predecir imágenes similares a los gustos y elecciones del usuario y alejar la representación de aquellas obras que no le gustaron, o con las que simplemente no interactuó.

La arquitectura de este sistema contiene unas cajas llamadas ResNet, que son redes como AlexNet, que permiten obtener una representación de las obras en imágenes, las que después se reducen en dimensiones conceptual y semánticamente similares. Estas se integran a la plataforma, para posibilitar una comparación entre el vector que representa el perfil completo del usuario, con las postales artísticas, y así poder predecirlas como correctas o incorrectas y en un futuro, hacer recomendaciones. Es decir, el sistema aprende las representaciones; crea un perfil; lo compara con el inventario completo de U Gallery y coteja cada imagen, para determinar si son similares a las obras que el usuario tiene en su perfil.

El método de exploración de la plataforma, es un sistema similar al de Pinterest, con el cual, se pueden apreciar detalles; agregar a favoritos y; ver recomendaciones, las cuales tienen un sistema de evaluación con “pulgar arriba y pulgar abajo” indicando, además, una explicación de la razón de por qué esta imagen es recomendada.

 

Modelos generativos en inteligencia artificial para el arte

Los modelos generativos en inteligencia artificial se entienden como métodos que no solo son capaces de clasificar o predecir, sino que, en el proceso de aprender, pueden generar datos que no fueron observados durante el entrenamiento. Por ejemplo, si un sistema ha sido entrenado con imágenes de gatos y perros, después podrá generar una foto de un gato, que no es una memorizada de lo que aprendió u observó, sino que es una postal nueva que puede combinar diferentes características de lo que aprendió por “gato”, y siga siendo, efectivamente una imagen de gato para la percepción humana.

En los últimos años, modelos basados en flujos como Generatives Adversarial Networks (Redes Adversarias Generativas), o Variational Auto Encoders (VAE), han entregado resultados sorprendentes de cómo se pueden desarrollar elementos nuevos simplemente a partir de un ruido. Un ejemplo es la StyleGAN, que utiliza un patrón de GAN para crear rostro y luego solo a partir de un ruido puede generar caras nunca observadas en el data set. Estas imágenes se construyen a partir del reconocimiento de muchos otros rostros, para así crear personas ficticias en alta resolución y con un gran nivel de detalle. Esta posibilidad puede significar una oportunidad para los procesos artísticos; no obstante, si son mal utilizadas podrían generar perjuicios sociales.

En términos generales, el modelo funciona de la siguiente forma: toma dos imágenes de entrada, una de contendidos y otra de estilo. Ambas ingresan a un codificador de red neuronal para ser combinadas y crear una foto nueva. Una de las formas de utilizar estos diferentes tipos de redes para la creación artística es a través de lo que se llama “transferencia de estilo”, y uno de los principales modelos que permitió hacerlo de forma rápida y con buena calidad es el llamado Adaptive Instance Normalization o AdaIN.

TimbreNet

Además de los proyectos que desarrollamos en términos visuales, también realizamos investigación en términos musicales. Para eso, junto al profesor Rodrigo Cádiz, formamos el Creative Al Lab de la Universidad Católica, donde, con un grupo de estudiantes, empezamos a investigar diferentes ideas para usar estos modelos generativos y poder amplificar la experiencia de la creación artística. El propósito fue crear herramientas de inteligencia artificial para composición musical.

TimbreNet es una red del tipo Auto Encoder Variacional la cual se entrena para reproducir sonidos a partir de diferentes notas; dinámicas; articulaciones; volúmenes e, incluso distintos instrumentos. A su vez, es capaz de crear un mapa de dos dimensiones, lo que permite a un compositor, recorrerlo de forma fácil y encontrar sonidos diversos para sus creaciones. En un futuro la misma red podría generar sus propias composiciones.

Este sistema es lo que se conoce también como una “red neuronal”: modelos capaces de desarrollar audios e instrumentos a partir de la captura de las características musicales de los sonidos, y con eso generar espectrogramas. Estos, obtienen información de frecuencias y tiempos; entran a una red codificadora que comprime la información del espectrograma, para finalmente trasladarlo a un mapa de dos dimensiones. De esta forma, al término del proceso el sistema cuenta con una herramienta visual amigable que permite crear composiciones musicales.

Actualmente TimbreNet ha sido entrenada con diferentes acordes de piano y a distintos niveles de volumen, buscando que la red sea capaz de capturar la información de ambos componentes. Así, se le presentan distintos acordes —por ejemplo, un do mayor— y se entrena hasta que sea posible codificar, comprimir y decodificar la información, y así reproducir el mismo acorde. Este, también se puede ir modificando, para convertirse en uno completamente nuevo. El mapa de sonidos permite dibujar sobre él y generar trayectorias que unen distintos puntos y que la red es capaz de interpretar como secuencias de acordes.

Además del proceso de usar Auto Encoder Variacional hemos trabajado directamente con representaciones como Piano Rolls o MIDI, que son sistemas como tipos de entrada, a los algoritmos de inteligencia artificial. De esta forma, al comienzo generan solamente ruido y de van encontrando una estructura que reproduce sonidos con un mayor sentido musical.

En un principio, la red aprende a representar su propio audio con un MIDI, encontrando algunas conexiones, para que, después de iteraciones adicionales de esta GAN o red adversaria generativa, comience a encontrar un patrón que le permita generar un nuevo sonido.

Ahora, en lo que estamos trabajando, es en tratar de desarrollar modelos condicionados, los cuales se puedan entrenar, en un estilo de música determinado, o incluso en un estado de ánimo, y a partir de eso, pueda reproducir distintos tipos de MIDI y de música.

 

Otros proyectos desarrollados en la Universidad Católica

Actualmente tenemos varios proyectos en proceso, por ejemplo, un sistema de recomendación para las artes visuales en ambientes inmersivos. La estudiante de magíster, Isidora Palma, ha estado investigando ambientes de este tipo, como Unity, que son manejados para crear juegos en 3D. Ahora, para el desarrollo de esta iniciativa se utilizan algoritmos de recomendación, que permiten instalar exposiciones virtuales, las cuales pueden ser visitadas de forma inmersiva. Asimismo, que tanto el layout como la forma en que se disponen las diferentes obras, sea automatizada. Esto significa, que en la plataforma se presenta una especie de ranking de las obras que se están recomendando, junto a una descripción de las mismas, como información clave para los usuarios.

Otro aspecto que estamos desarrollando también con las GAN, es el de generación personalizada de arte visual. Una vez que la GAN es entrenada, por ejemplo, para que a partir de un ruido pueda reproducir la imagen de un rostro, el paso siguiente es avanzar a que ese mismo ruido, más una representación latente de los gustos personales de una persona, le permita al sistema generar contenidos diferentes. Nuevas texturas o combinaciones en paletas de colores, por ejemplo, pueden ser el resultado de estos procesos, y significar interesantes herramientas de apoyo, a los procesos de creación de las y los artistas visuales.

 

A modo de síntesis

En primer lugar, quisiera señalar que, en nuestro trabajo como Laboratorio de Creatividad en inteligencia artificial, no pensamos que estos sistemas y herramientas puedan utilizarse para automatizar completamente el proceso creativo. Creemos, más bien, que se pueden usar para ampliar las posibilidades de creación de los artistas. Algunos podrían no querer usarlas, otros sí, pero los que quisieran podrían aprender o explorar nuevas formas de creación, tanto visual como musical.

En segundo lugar, un aspecto controversial, pero sobre el cual se tiene que reflexionar, es respecto a las atribuciones que tienen los modelos de inteligencia artificial generativos. Por ejemplo, existe la posibilidad cierta de generar una pintura a través de una GAN, y después venderla en una exposición. El punto es, ¿quién creó esa obra? ¿La creó una GAN? ¿La creó el artista que eligió la obra? ¿O también tiene atribución el artista que hizo la obra con cual se entrenó esta red neuronal? Este ámbito no ha sido discutido en la legislación actual y es un tema sobre el cual hay que reflexionar para entender la forma en que los artistas que están creando, que puede no ser directamente con estas GAN, pero que, si se usan como insumo para entrenar los modelos descritos anteriormente, y que pueden tener alguna atribución en este proceso.

Por otro lado, generalmente cuando nos referimos a “sistemas recomendadores”, se habla desde el punto de vista del usuario que va a consumir la película, la canción, la obra visual, etc. Pero, en los últimos años, se han investigado “sistemas recomendadores justos”, que son aquellos que benefician tanto al usuario como a la creadora o el creador y que, a la vez, son lo suficientemente diversos para descubrir artistas emergentes; mostrar obras inéditas y formar nuevos públicos. Este es un aspecto que se encuentra en desarrollo técnicamente, pero que debe abordarse para los próximos sistemas de recomendación.

Por último, una pregunta que puede surgir a partir de todo lo expuesto, es: ¿pueden los computadores crear arte, ser creativos? Esta es una discusión abierta, pero una forma interesante de aproximarse, es el artículo “¿Can computers create art?” del investigador Aaron Hertzmann, de Adobe Research. Hertzmann aborda el tema con la premisa de que los computadores no pueden crear arte, a pesar de todos los avances que existen en redes generativas, y los documentos científicos, o las “deep fakes” que dicen lo contrario. El investigador sostiene que el arte proviene del mensaje que se quiere transmitir y que todavía los computadores —con todo el avance en inteligencia artificial que existe— no tienen conciencia, ni agencia o la capacidad de decidir un contenido, o un tema para presentarlo como un mensaje.

En este artículo se cita el caso tecnológico de la fotografía y como en sus inicios y con su irrupción se vaticinaba la muerte de las artes visuales. Lejos de ese augurio, lo que produjo el auge de la fotografía fue avanzar o mover el límite del arte visual, apoyando la creación de nuevas formas como el surrealismo, el cubismo, el expresionismo, o el mismo arte fotográfico. De la misma manera, las herramientas de inteligencia artificial son otro tipo de instrumentos que pueden amplificar los procesos de creación artística. No van a crear o enviar un mensaje a través de estas obras, porque la inteligencia artificial general con cognición todavía está lejos del alcance.

 

Denis Parra.[2]Ph.D. en Ciencias de la Información de la Universidad de Pittsburgh, Estados Unidos. Profesor asociado del Departamento de Ciencias de la Computación de la Escuela de Ingeniería de la Pontificia … Continue reading

References
1 UGallery es una galería de arte en línea, con sede en San Francisco y fundada el año 2006. Se constituye como una plataforma de comercio electrónico que conecta a los artistas directamente con los coleccionistas en su sitio web. Mas información en: www.ugallery.com
2 Ph.D. en Ciencias de la Información de la Universidad de Pittsburgh, Estados Unidos. Profesor asociado del Departamento de Ciencias de la Computación de la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile. Investigador del Instituto Milenio de Fundamentos de los Datos. Ingeniero Civil en Informática de la Universidad Austral. Ha desarrollado proyectos de investigación sobre algoritmos de recomendación de arte e incorporación de sistemas de Inteligencia Artificial en la creación musical. En la actualidad encabeza el laboratorio de investigación SocVis y co-dirige el laboratorio CreativAI junto con el profesor Rodrigo Cádiz. Es miembro de PUC IA Lab.