ChatGPT, Midjourney y las IA generativas tienen un problema de propiedad intelectual

1 year ago 66

ChatGPT, al igual que las IA generativas de imágenes como Dall-E, Stable Diffusion y Midjourney, tiene serios problemas con las leyes de propiedad intelectual. Las especulaciones sobre los beneficios que pueden traernos estas tecnologías se proyectan al futuro, pero su impacto en los artistas y creadores es real y efectivo hoy.

“Me habían dicho que se estaban creando obras derivadas, pero cuando me puse a buscar vi que directamente mi nombre era un prompt”, dice Santiago Caruso, ilustrador y editor de libros argentino. “Usan mi nombre para generar imágenes similares a las que podría crear yo”, dice este artista, que ha publicado en España y países de Latinoamérica y vive de su trabajo desde hace 22 años.

Las tecnologías detrás de IA generativas están basadas en el aprendizaje automático y necesitan ser entrenadas con grandes cantidades de contenidos: textos en el caso de ChatGPT; fotografías o ilustraciones en casos de IA generadoras de imágenes como Dall-E, Midjourney o Stable Diffusion.

Pero sabemos que en muchos casos OpenAI o Stability AI, las empresas que los han entrenado, no han pedido permisos a los creadores de esos contenidos para hacerlo, como con toda la obra de Caruso. Según la evidencia que este ilustrador ha logrado reunir, hasta el 20 de febrero su nombre ha sido usado como instrucción más de 1.800 veces en Midjourney, 4.000 en NightCafe, 348 en Lexica y más de 4.500 en PromptFlow. Hoy son muchas más, y subiendo.

Cuatro demandas contra IA generativas por temas de derecho de autor

Las ilustraciones de Caruso tienen un estilo muy personal, que han aprendido a reproducir perfectamente Stable Diffusion, Midjourney y el resto de IA generativas que utilizan una base de datos masiva de imágenes llamada LAION 5b. Este es un conjunto de datos a escala mundial de miles de millones de imágenes con distintas licencias: unas son pertenecientes al dominio público, pero también las hay protegidas por copyright. Todo ese material, incluso el protegido por derecho de autor, como es el caso de las ilustraciones de Caruso, ha sido utilizado para desarrollar Stable Diffusion.

En este momento hay cuatro demandas legales contra empresas de IA por violar derechos de propiedad intelectual en el entrenamiento de sus sistemas. Tres mujeres, Sarah Andersen, Kelly McKernan y Karla Ortiz, lideran una demanda colectiva contra Stability AI, DeviantArt y Midjourney.

La agencia de fotografía Getty ha presentado dos demandas más contra Stability AI, una en Reino Unido, y otra en Norteamérica, acusándola de copiar ilegalmente más de 12 millones de fotos de Getty, junto con pies de foto y metadatos, para entrenar el software que hay detrás de Stable Diffusion. Getty dijo que el «robo descarado y el parasitismo» se llevaron a cabo «a una escala asombrosa», y en su demanda argumenta que Stable Diffusion diluye el valor de la marca de agua de Getty al incorporarla a imágenes que iban «de lo bizarro a lo grotesco». La agencia no está en contra de usar imágenes con estos fines por medio de acuerdos y ha licenciado imágenes y metadatos a otras IA generativas anteriormente.

En la lista de fuentes de las que bebió GPT-2 hay muchos medios: El País, Marca, Infobae y ElDiario.es entre ellos

En San Francisco (Estados Unidos) se ha presentado una demanda colectiva contra GitHub Copilot. Este es un producto de IA propiedad de Microsoft que se comercializa como asistente para generar código informático. Además de generar prosa, ChatGPT es muy eficiente escribiendo código, y sabemos que GPT-2, la versión anterior del modelo de lenguaje de ChatGPT, ha sido entrenado utilizando material de repositorios públicos de GitHub, plataforma comprada por Microsoft en 2018. En este caso se les acusa de violar los derechos legales de un gran número de desarrolladores que publicaron código informático u otros trabajos bajo ciertas licencias de código abierto en GitHub. Estos creadores de código no reclaman dinero, sino reconocimiento de su autoría, como indican las licencias que se usaron.

Los artículos de prensa usados para entrenar a GPT-2

Además de GitHub, en la lista de fuentes de las que bebió GPT-2 hay muchos medios: El País, elDiario.es, Marca, Infobae, El Universal, Reuters, The New York Times, The Guardian, BBC News, The Wall Street Journal, CNN, The Washington Post, Associated Press, Bloomberg, Financial Times, The Economist, National Public Radio (NPR), The Atlantic, TechCrunch, Wired, Forbes, Business Insider, entre otros.

Consultados por Newtral.es, tanto El País como elDiario.es afirman no tener ningún acuerdo con OpenAI para ingerir sus contenidos. En febrero el Wall Street Journal y CNN criticaron que OpenAI utilizaran artículos de sus periodistas para entrenar su IA sin pagar las licencias correspondientes. No está claro que la empresa dirigida por Sam Altman tenga acuerdos con el resto de medios.

“Las IA se están nutriendo de las obras de los artistas y están alterando la esencia, a ellos no les hace ninguna ilusión que cojan sus obras”, dice Mario Pena, responsable de Operaciones en SafeCreative, una empresa que genera pruebas de autoría digitales.

“Hay suficientes obras que están en el dominio público, que son actuales y que se pueden utilizar como para que [las IA generativas] se puedan nutrir de ellas. Y si no, para eso existen las licencias y los acuerdos entre proveedores de contenidos”, dice Pena.

“Creo que con el tiempo todo eso empezará a encajar y funcionar bien, pero tal como está ahora lo veo un poco oscuro”. Aunque reconoce que las demandas actuales no son sentencias aún, Pena cree que “parece bastante claro que están utilizando cosas sin la debida autorización”.

La propiedad intelectual de los productos generados por IA generativas

Pero esto no es todo lo que hay por decir en torno a la propiedad intelectual y las IA generativas. Más allá de los derechos de las obras utilizadas para entrenar a estos algoritmos, hay otro problema que radica en la parte final del proceso: los productos (textos, imágenes, vídeos) que generan estos modelos. ¿Pueden ser registrados por la persona que le dio las instrucciones?

El registrador de la propiedad intelectual en Madrid está denegando el registro de imágenes con Midjourney

La Oficina del Derecho de Autor de los Estados Unidos ha determinado que las imágenes creadas por una IA generativa para un cómic no deben ser registradas por parte de la autora. A Kris Kashtanova, que introdujo las instrucciones o prompts en Midjourney para generar las imágenes, sin embargo, la agencia le permite registrar la protección de los derechos de autor de la historia de la novela y de la disposición de las imágenes.

El registrador de la propiedad intelectual de Madrid va en esa línea, y también está denegando el registro de imágenes creadas con Midjourney, según el pódcast Monos Estocásticos.

OpenAI ha dicho que no reclamará el copyright del contenido generado por sus usuarios. Pero Microsoft, que está integrando ChatGPT y GPT-3 en sus aplicaciones, ya ha licenciado GPT-3 junto con OpenAI. Samuel Parra, abogado especializado en el área tecnológica del Derecho, observa que si Microsoft quisiera cobrar por los productos generados por este modelo en un tiempo tendría base legal para hacerlo. Aunque no cree que lo haga.

Los derechos de propiedad intelectual son para los humanos, según la ley

En España siguen la línea de una resolución que emitió el Parlamento Europeo el 20 de octubre de 2020 «sobre los derechos de propiedad intelectual para el desarrollo de las tecnologías relativas a la inteligencia artificial» (negritas propias):

15. Opina que las creaciones técnicas generadas con tecnología de IA deben protegerse con arreglo al marco jurídico de los DPI, con el fin de fomentar las inversiones en esta forma de creación y mejorar la seguridad jurídica para los ciudadanos, las empresas y, dado que son los principales usuarios de las tecnologías de IA, los inventores; considera que las obras producidas de manera autónoma por agentes artificiales y robots no deben poder acogerse a la protección mediante derechos de autor, a fin de respetar el principio de originalidad, que está unido a una persona física, y puesto que el concepto de «creación intelectual» conlleva la personalidad del autor; pide a la Comisión que apoye un enfoque horizontal, basado en pruebas y neutro desde el punto de vista tecnológico con respecto a las disposiciones comunes y uniformes en materia de derechos de autor aplicables a las obras generadas mediante IA en la Unión, si se estima que dichas obras pudieran acogerse a la protección mediante derechos de autor; recomienda que la titularidad de los derechos, en su caso, se asigne únicamente a las personas físicas o jurídicas que crearon la obra de manera legal, y solo si el titular de derechos de autor ha concedido su autorización cuando se utilice material protegido por derechos de autor, salvo que sean aplicables excepciones o limitaciones a dichos derechos; pone de relieve la importancia de facilitar el acceso a los datos y de compartir los datos, de las normas abiertas y las tecnologías basadas en fuentes abiertas, y de alentar, al mismo tiempo, la inversión e impulsar la innovación.

Parlamento Europeo

La resolución se refiere al principio de originalidad, que está unido a una persona física como autor. La normativa española y europea únicamente reconoce protección a las obras creadas por personas humanas, por lo que si la obra ha sido creada por un software no se puede inscribir en un registro de la propiedad intelectual.

Otra cosa es que el artista utilice como herramienta un software o un medio electrónico, como advierte Belén Álvarez, abogada de Derecho de la Cultura y Propiedad Intelectual en Gabeiras&Asociados.

La posición oficial de OpenAI, según un documento que presentaron a la Oficina de Patentes y Marcas de los Estados Unidos (USPTO), es que el uso de obras protegidas por derechos de autor con fines de formación constituye un uso legítimo o fair use. Algo controvertido, ya que la doctrina del uso justo sostiene que si el material protegido por derechos de autor reduce el valor de mercado de la obra para su creador original, es poco probable que se considere uso justo.

Este principio no aplica en Europa, según fuentes jurídicas consultadas.

Álvarez observa que aunque estas tecnologías son un fenómeno muy nuevo, la ley de propiedad intelectual es clara: dice que cuando se quiere utilizar una obra preexistente para generar un contenido nuevo, se necesita autorización del autor que ha creado esa obra preexistente. “Desde ese punto y teniendo en cuenta que la IA genera contenido después de haber sido entrenada con multiplicidad de obras protegidas, con la literalidad de la norma, se necesita autorización para poder utilizar todas esas normas preexistentes”, señala Álvarez, que explica que en ese sentido van las demandas en marcha en Estados Unidos.

La diferencia en obras asistidas por la IA o generadas con la IA

En SafeCreative, que es una alternativa a los registros nacionales, están mirando el tema de la propiedad intelectual en relación con estas tecnologías con atención. No todos los artistas rechazan las IA generativas, y son muchos los que utilizan profesionalmente desde hace tiempo este tipo de asistentes en su trabajo creativo.

Mario Pena dice que en poco tiempo tienen “todo el espectro”, desde los que lo rechazan frontalmente, quienes lo ven como una amenaza a su modelo de negocio y aquellos que lo utilizan muchísimo. En la gama intermedia hay incluso quienes alimentan a las IA con su propio material para crear nuevas obras. “Es un tema muy complejo”, reconoce Pena.

En la resolución del Parlamento Europeo se señala la importancia de diferenciar entre creaciones humanas asistidas por la IA y las creaciones generadas por la IA. La clave parece estar en si las instrucciones o los prompts son originales y reflejan la creatividad del autor.

¿Cómo se determina algo así? Responde David Maeztu, abogado especialista en derecho en internet: “Si establecemos que yo me hago preguntas y tiro de la información almacenada en el cerebro (tanto para darle sentido a la pregunta como para obtener una respuesta) lo que hago con la IA es aprovecharla para surtirme de una base de datos mayor, pero mi capacidad diferencial está en la forma y capacidad de formular la pregunta. Por lo tanto, mis respuestas son asistidas de algo que ha aprendido y almacenado como haría mi cerebro, pero que está almacenado fuera de esto”.

La opinión del abogado es que de cara a establecer la propiedad intelectual, los prompts sí intervienen en la forma en que se obtiene el resultado, además de la labor de filtrado y la puesta en valor que hace el autor humano posteriormente. Pero son ideas complicadas de establecer a nivel legal en este momento, según él.

Regulación y transparencia para evitar el plagio automatizado

Adobe se ha adelantado a esta polémica y ha anunciado pagos a los creadores a través de herramientas que incluyen la consideración a los derechos de autor del material que se utiliza para entrenamiento.

Hay también creadores que ven las IA generativas como una buena circunstancia. “De primeras, creo que la generación de imágenes por IA fortalecerá la presencia de fotoperiodistas en los medios”, dice Olmo Calvo, un fotógrafo español que se dedica al fotoperiodismo y ha estado cubriendo el conflicto en Ucrania, y crisis migratorias en Libia, Lesbos y los Balcanes.

“Precisamente con un océano de imágenes creadas por IA y desinformación, las personas buscan más las firmas, las cabeceras, las personas detrás de esas fotos, buscan referentes en quienes pueden confiar”, explica. Lo que más le inquieta de las IA generativas de imágenes no es la propiedad intelectual, sino la desinformación. «No me inquieta como profesional sino como ciudadano, se puede generar muy rápidamente una imagen que perjudique a alguien”.

La plataforma Arte es Ética es un colectivo de agrupaciones y creativos independientes que creen que la irrupción de las IA generativas tienen un punto en común: licúan la autoría de las fuentes en que basan las capacidades adquiridas a través del aprendizaje automático profundo.

Según Caruso, que la impulsa, el problema va más allá de los derechos perdidos en cuanto a propiedad intelectual de los artistas.

“Lo que hace la IA generativa es poner al sujeto fuera del proceso creativo, operación que pone a la máquina en el centro de resolver la tarea y la persona pasa a ser un apéndice de la cadena de montaje. Quien las usa no se vuelve artista, sino que queda relegado al lugar del cliente que pauta el encargo”.

El colectivo de creadores califica lo que sucede actualmente como “plagio automatizado” ante el que toda autoría se encuentra en una total indefensión. “Todo aquello que sea puesto en circulación en internet por sus autores o cualquier otra persona, es susceptible de ser capturado y subsumido como base de datos de entrenamiento para nuevas versiones de IA generativas: una tecnología que es instrumento para el robo encubierto y la sustitución de los trabajadores”.

Sugieren regular la tecnología con varias propuestas, entre las que están las marcas de agua, una metodología de opt-in y no de opt-out para los artistas, y algoritmos de detección. Pena, de SafeCreative, opina que todo lo que tenga que ver con este tipo de algoritmo debería ser muy transparente. “Aunque sean empresas privadas, teniendo en cuenta lo importante e influyentes que pueden llegar a ser, la transparencia debería ser obligatoria. Deberíamos saber qué dataset están utilizando, para todo, para imágenes, para textos, porque si no nos podemos encontrar con sesgos, manipulaciones que pasen por verdades y luego no lo son. La transparencia a la hora de saber cómo están alimentadas, y de qué forma se están utilizando para crear esos resultados, es importante por una salud democrática, simplemente”, reflexiona.