En un nuevo escándalo que alimentará de más argumentos a todos aquellos que abogan por un mayor control del desarrollo y uso de las herramientas con inteligencia artificial, hoy hemos sabido que miles de imágenes de abusos sexuales a menores han formado parte de la base de datos usada por varios generadores de imágenes de IA.

Entre las herramientas de imágenes IA afectadas por este material que jamás debería haber formado parte de ningún entrenamiento destaca Stable Diffusion, según ha revelado hoy un estudio, elaborado por Stanford Internet Observatory).

¿Cómo es posible que Stable Diffusion se haya entrenado con imágenes de abusos sexuales a menores?

La culpa es de LAION-5B, un gran conjunto de datos públicos de miles de millones de imágenes que ha sido utilizado para entrenar generadores de imágenes IA como Stable Diffusion. Dicha base de datos ha llegado a contener 3.200 imágenes de abuso sexual infantil, según ha revelado el estudio, que aclara que LAION eliminó dichas imágenes en cuanto supo de su existencia (por una comunicación de los investigadores).

«La respuesta fue inmediata. En vísperas de la publicación el miércoles del informe del Observatorio de Internet de Stanford, LAION comunicó a The Associated Press que retiraba temporalmente sus conjuntos de datos».

Medios como Forbes y The Washington Post se han hecho eco del escándalo de que Stable Diffusion se haya alimentado de imágenes de abusos de menores.
Medios como Forbes y The Washington Post se han hecho eco del escándalo de que Stable Diffusion se haya alimentado de imágenes de abusos de menores.

No obstante, la cosa podría no acabar aquí: los investigadores avisan de que el volumen real de imágenes sensibles e ilegales es probablemente mucho mayor, dado que su evaluación sólo se realizó a partir de septiembre y se centró en una pequeña porción del conjunto de miles de millones de imágenes.

La plataforma más célebre (y conocida por todos los aficionados a la IA) que se ha nutrido del archivo de LAION es la startup londinense Stability AI, creadora de los modelos de conversión de texto en imágenes Stable Diffusion.

El problema de que Stable Diffusion sea de código abierto

El estudio insta a las empresas a tomar medidas para solucionar los fallos dañinos que puedan detectarse de las tecnologías que han construido (sirva como ejemplo la decisión por parte de Microsoft y OpenAI en septiembre de impedir que la nueva versión de DALL-E sea capaz de generar imágenes que aludan a personajes célebres o a obras de artistas vivos).

Pero, ¿qué hacemos si, como es el caso, la solución no puede implementarse de forma retroactiva? ¿Qué hacemos si, como es el caso de Stable Diffusion, estamos ante un genio al que es imposible volver a meter en la lámpara?

A diferencia de la mayoría de generadores de imágenes con inteligencia artificial, Stable Diffusion es de código abierto, por lo que existen muchas versiones disponibles, las cuales pueden ser descargadas gratuitamente e instaladas en cualquier ordenador por todo usuario con un mínimo de conocimientos de Python.

Relacionado: ¿Por qué se llama Stable Diffusion?

Las nuevas versiones de Stable Diffusion han hecho mucho más difícil crear contenidos nocivos debido a las crecientes salvaguardas que todas las inteligencias artificiales generativas (ya sean de texto, vídeo o imágenes) han estado implementando a lo largo de 2023, el año en el que la inteligencia artificial generativa se volvió mainstream.

Pero, por muchas medidas de seguridad que se hayan implementado, nada puede hacerse para modificar retroactivamente el comportamiento de modelos de Stable Diffusion.

Desnudar con IA: un delito penado con 9 años de cárcel en España

Y es aquí donde los investigadores señalan que reside el problema: una versión anterior introducida el año pasado sigue estando integrada en otras aplicaciones y herramientas y sigue siendo «el modelo más popular para generar imágenes explícitas», según el informe de Stanford.

«No podemos dar marcha atrás a esto. Ese modelo está en manos de mucha gente en sus máquinas locales», afirma Lloyd Richardson, director de tecnologías de la información del Centro Canadiense para la Protección de la Infancia, que gestiona la línea telefónica canadiense para denunciar la explotación sexual en Internet, en declaraciones recogidas por el periódico estadounidenseThe Washington Post.

Que tomen buena nota las grandes inteligencias artificiales generativas que hoy se encuentran en desarrollo, como Mistral. La startup francesa, que ambiciona con igualar en calidad a ChatGPT-4, ya ha empezado a publicar sus propios modelos de código abierto. Como con los modelos anteriores de Stable Diffusion, a estos genios tampoco es posible ya volver a meterlos en la lámpara.

Relacionado: Todo lo que necesitas saber de Mistral, la prometedora startup francesa que aspirar a construir el ChatGPT europeo