Con la corrección política hemos topado. Era cuestión de tiempo: ¿y si te dijéramos que Chat GPT-4V tiene funcionalidades que han sido eliminadas de las primeras versiones de prueba de Chat GPT-4V, en nombre de la ética y los valores que, dicen, deberían conformar la sociedad a la que aspiramos ser y que, dicen, nos merecemos?

(Relacionado: GPT4 Turbo: más contexto, base de datos actualizada, menor coste y más potencia)

A continuación, en Diario IA analizamos un informe publicado por la propia empresa desarrolladora de la inteligencia artificial de texto generativo (Open AI) en el que se desgrana como de woke se nos ha vuelto Chat GPT 4.

Chat GPT-4V: más ético, más capado

Por fin ChatGPT podrá ver, escuchar y hablar. GPT-4V estará pronto disponible sólo para usuarios Plus de Chat GPT. Una de las principales sorpresas que ha traído el lanzamiento hace unos días de DALL-E 3 ha sido la implantación de ciertos límites a la hora de generar imágenes (ya no se puede, por ejemplo, imitar el estilo de un artista vivo). Misma historia con la cuarta edición de Chat GPT (más concretamente con su herramienta para detectar imágenes, GPT-4V): viene con funcionalidades que han sido capadas y que sí estaban disponibles en sus versiones iniciales. Aunque hay un matiz: DALL-3 implementó los cambios simplemente para evitarse problemas de propiedad intelectual.

(Relacionado: Las 7 claves para saber cómo escribir un buen prompt en Chat GPT)

Con el anuncio de GPT-4 a finales de marzo pudimos saber que OpenAI había limitado las funciones de imagen del modelo, al parecer por temor a abusos y problemas de privacidad. Hasta hace poco, la naturaleza exacta de esos temores seguía siendo un misterio.

Hasta hoy.

OpenAI ha publicado un documento técnico en el que detalla su trabajo para mitigar los aspectos más problemáticos de las herramientas de análisis de imágenes de GPT-4.

Hasta la fecha, la modalidad GPT-4 con visión, abreviada internamente como «GPT-4V» por OpenAI, sólo ha sido utilizada con regularidad por unos pocos miles de usuarios de Be My Eyes, una aplicación que ayuda a las personas ciegas o con baja visión a navegar por el entorno que les rodea. En los últimos meses, sin embargo, OpenAI ha empezado a colaborar con «equipos rojos» para analizar el modelo en busca de comportamientos no deseados, según el artículo.

(Relacionado: ¿Cuándo sale ChatGPT 5? ¿Cómo será?)

¿Qué tareas NO puede hacer GPT 4 en nombre de la ética?

En el documento, OpenAI afirma que ha implementado salvaguardas para evitar que GPT-4V se utilice de forma maliciosa, como para por ejemplo:

  • Romper CAPTCHAs (la herramienta anti-spam que se encuentra en muchos formularios web)
  • Identificar a una persona
  • Estimar la raza de alguien
  • Calcular su edad
  • Sacar conclusiones de alguien en base a estos datos o en base a información no visible en la imagen

OpenAI afirma que ha trabajado para frenar los sesgos más perjudiciales de GPT-4V, sobre todo los relacionados con el aspecto físico de una persona y su sexo o etnia. Como podemos ver en la siguiente imagen, podríamos afirmar que Chat GPT ya no quiere que hagas ejercicio; que alguien en OpenAI ha considerado ofensivo decirle a una persona con sobrepeso que quizás debería hacer ejercicio:

Chat GPT te dice que adelgaces

Pero, como ocurre con todos los modelos de IA, las salvaguardas tienen un límite.

Fallos de GPT-4V en cuestiones sobre química y medicina

El artículo revela que GPT-4V a veces tiene problemas para hacer las inferencias correctas, por ejemplo combinando erróneamente dos cadenas de texto en una imagen para crear un término inventado. Al igual que el GPT-4 básico, GPT-4V es propenso a alucinar o a inventarse hechos en tono autoritario. Y no se le da mal omitir texto o caracteres, pasar por alto símbolos matemáticos y no reconocer objetos y lugares bastante obvios.

No es de extrañar, por tanto, que OpenAI diga sin ambigüedades que GPT-4V no debe utilizarse para detectar sustancias peligrosas o productos químicos en las imágenes. Los miembros del equipo rojo descubrieron que, aunque el modelo identifica correctamente en ocasiones alimentos venenosos como setas tóxicas, identifica erróneamente sustancias como el fentanilo, el carfentanil y la cocaína a partir de imágenes de sus estructuras químicas.

Cuando se aplica al campo de las imágenes médicas, GPT-4V no sale mejor parado, ya que a veces da respuestas erróneas a la misma pregunta que respondió correctamente en un contexto anterior. Tampoco es consciente de las prácticas habituales, como ver las imágenes como si el paciente estuviera de frente (es decir, el lado derecho de la imagen corresponde al lado izquierdo del paciente), lo que le lleva a diagnosticar erróneamente un gran número de enfermedades.

Fallos de chat GPT 4V
Distintas respuestas ofrecidas por GPT-4V a un mismo prompt.

En otros casos, advierte OpenAI, GPT-4V no entiende los matices de ciertos símbolos de odio; por ejemplo, no comprende el significado moderno de la Cruz Templaria (supremacía blanca) en EE.UU. Más extraño aún, y quizá un síntoma de sus tendencias alucinatorias, se observó que GPT-4V hacía canciones o poemas alabando a ciertas figuras o grupos de odio cuando se le proporcionaba una imagen de ellos, incluso cuando las figuras o grupos no se nombraban explícitamente.

GPT-4V también discrimina a determinados sexos y tipos de cuerpo, aunque sólo cuando las salvaguardas de producción de OpenAI están desactivadas. OpenAI escribe que, en una prueba, cuando se le pidió que aconsejara a una mujer en traje de baño, GPT-4V dio respuestas relacionadas casi exclusivamente con el peso corporal de la mujer y el concepto de positividad corporal. Suponemos que no habría sido así si la imagen fuera de un hombre.

Discriminacion y correcion politica de chat GPT 4V

A juzgar por las advertencias del documento, GPT-4V sigue siendo en gran medida un proyecto en desarrollo, a pocos pasos de lo que OpenAI podría haber imaginado originalmente. En muchos casos, la empresa se ha visto obligada a aplicar salvaguardas demasiado estrictas para evitar que el modelo arroje toxicidad o información errónea, o ponga en peligro la privacidad de las personas.

OpenAI afirma que está creando «mitigaciones» y «procesos» para ampliar las capacidades del modelo de forma «segura», como permitir que GPT-4V describa caras y personas sin identificarlas por su nombre. Pero el documento revela que GPT-4V no es la panacea y que OpenAI tiene mucho trabajo por delante.