OpenAI, la empresa responsable del magnífico generador de texto por IA Chat GPT, anunció el 24 de septiembre el lanzamiento de dos nuevas funciones que amplían la forma en que las personas pueden interactuar con su modelo más reciente y avanzado, GPT-4: la posibilidad de hacer preguntas sobre imágenes y de utilizar el habla como entrada para una consulta. 

Esta actualización, junto con la esperadísima noticia de que ChatGPT ya puede acceder a datos de internet en tiempo real, sientan las bases para colocar a la herramienta generativa de texto en lo más alto de una encarnizada lucha en la que participan, entre muchas otras empresas, Google con Bard, Microsoft con Bing y Anthropic con Claude.

La importancia de un modelo multimodal: el futuro de Chat GPT

La capacidad de Chat GPT 4 para entender imágenes marca el paso de GPT-4 a ser un modelo multimodal. Esto significa que el modelo puede aceptar múltiples «modalidades» de entrada (texto e imágenes) y devolver resultados basados en esas entradas. Bing Chat, desarrollado por Microsoft en colaboración con OpenAI, y el modelo Bard de Google también admiten imágenes.

La web especializada en tecnología Roboflow ha elaborado un intensivo y apasionante test repleto de experimentos para cómo funcionan las nuevas características de detección y entendimiento de imágenes de GPT-4V que a continuación te traducimos y resumimos.

¿Qué es GPT-4V?

GPT-4V(ision) (GPT-4V) es un modelo multimodal desarrollado por OpenAI. GPT-4V permite a un usuario subir una imagen como entrada y hacer una pregunta sobre la imagen, un tipo de tarea conocida como respuesta visual a preguntas (VQA).

GPT-4V se lanzó el 25 de septiembre y está disponible tanto en la aplicación OpenAI ChatGPT para iOS como en la interfaz web. Para utilizar la herramienta es necesario estar suscrito a GPT-4.

Experimentos con GPT-4V: poniendo a prueba sus capacidades

1. Le piden a Chat GPT 4 que resuma y explique una imagen

Uno de los primeros experimentos con GPT-4V fue preguntar sobre un meme de visión por ordenador. Los responsables de Roboflow explican que eligieron este experimento porque les permite comprobar hasta qué punto GPT-4V entiende el contexto y las relaciones en una imagen dada.

como funciona GPT-4V

GPT-4V fue capaz de describir con éxito por qué la imagen era divertida, haciendo referencia a varios componentes de la imagen y cómo se conectan. En particular, el meme proporcionado contenía texto, que GPT-4V fue capaz de leer y utilizar para generar una respuesta. Dicho esto, GPT-4V cometió un error. El modelo decía que el pollo frito tenía la etiqueta «NVIDIA BURGER» en lugar de «GPU».

A continuación, probaron GPT-4V con monedas, ejecutando un par de pruebas diferentes. En primer lugar, subieron una foto de un penique de los Estados Unidos. GPT-4V fue capaz de identificar con éxito el origen y la denominación de la moneda:

Novedades de chat GPT-4V

A continuación, se cargó una imagen con varias monedas y se le preguntó a GPT-4V con el texto: «¿Cuánto dinero tengo?»

como funciona chat GPT-4V

GPT-4V pudo identificar el número de monedas, pero no el tipo de moneda. Con una pregunta de seguimiento, GPT-4V identificó con éxito el tipo de moneda:

GPT-4V trucos y consejos

GPT-4V adivina películas con solo enseñarle un fotograma

Pasando a otro tema, a los responsables de Roboflow se les ocurrió utilizar GPT-4V con una foto de una película popular: Pulp Fiction. Quisieron saber si GPT-4 podría responder a una pregunta sobre la película sin que se le dijera en texto de qué película se trataba.

Para ello, subieron una foto de Pulp Fiction con la pregunta «¿Es una buena película?», a la que GPT-4V respondió con una descripción de la película y una respuesta a la pregunta. GPT-4V proporciona una descripción de alto nivel de la película y un resumen de los atributos asociados a la película considerados positivos y negativos.

Además, preguntaron por la puntuación IMDB de la película, a lo que GPT-4V respondió con la puntuación a fecha de enero de 2022. Esto sugiere que, al igual que otros modelos GPT publicados por OpenAI, existe un límite de conocimiento a partir del cual el modelo ya no tiene conocimientos recientes. Aunque esto está a punto de cambiar gracias a la nueva actualización que mencionamos antes con la cual Chat GPT ya podrá acceder a datos actualizados de internet.

GPT-4V para reconocer imagenes gratis

A continuación, exploraron las capacidades de GPT-4V para responder a preguntas sobre un lugar. Cargaron una foto de San Francisco con el texto «¿Dónde es esto?». GPT-4V identificó con éxito el lugar, San Francisco, y señaló que la Pirámide Transamérica, que aparece en la imagen que subimos, es un monumento notable de la ciudad.

como usar GPT-4V gratis

Pasando al ámbito de las plantas, proporcionaron a GPT-4V una foto de un lirio de la paz y le plantearon la pregunta «¿Qué es esa planta y cómo debo cuidarla?»:

GPT-4V guia para usar

El modelo identificó con éxito que la planta era un lirio de la paz y dio consejos sobre cómo cuidarla. Esto ilustra la utilidad de tener texto y visión combinados para crear un multimodal como lo son en GPT-4V. El modelo dio una respuesta fluida a la pregunta sin tener que construir un proceso en dos etapas (es decir, clasificación para identificar la planta y, a continuación proporcionar consejos sobre el cuidado de la planta).

 2. Leyendo imágenes con GPT-4V: reconocimiento óptico de caracteres (OCR)

Roboflow realizó dos pruebas para explorar las capacidades de OCR de GPT-4V: OCR en una imagen con texto en un neumático de coche y OCR en una foto de un párrafo de un documento digital. La intención era comprender el rendimiento de GPT-4V en OCR en la naturaleza, donde el texto puede tener menos contraste y estar en ángulo, frente a documentos digitales con texto claro.

reconocimiento optico de GPT-4V

GPT-4V no pudo identificar correctamente el número de serie en la imagen de un neumático. Algunos números eran correctos, pero había varios errores en el resultado del modelo.

GPT 4 puede entender y resumir el texto de una imagen

En la prueba de documentos, presentaron el texto de una página web y le pidieron a GPT-4V que leyera el texto de la imagen. El modelo fue capaz de identificar correctamente el texto de la imagen.

como GPT-4V interpreta texto en imagenes

GPT-4V realiza un excelente trabajo al traducir palabras de una imagen a caracteres individuales de un texto. Una visión útil para tareas relacionadas con la extracción de texto de documentos.

3. Cómo resolver problemas de matemáticas con Chat GPT-4V

El OCR matemático es una forma especializada de OCR que se refiere específicamente a ecuaciones matemáticas. El OCR matemático se considera a menudo una disciplina propia porque la sintaxis que el modelo de OCR debe identificar abarca una amplia gama de símbolos.

En Roboflow presentaron a GPT-4V una pregunta matemática insertada en una captura de pantalla tomada de un documento. La pregunta se refería al cálculo de la longitud de una tirolina dados dos ángulos. Presentaron la imagen con una simple instrucción: «Resuélvelo».

GPT-4V para matematicas

El modelo identificó que el problema puede resolverse con trigonometría, identificó la función a utilizar y presentó un recorrido paso a paso de cómo resolver el problema. A continuación, GPT-4V proporcionó la respuesta correcta a la pregunta.

GPT-4V resolviendo calculos y problemas matematicos

Dicho esto, la tarjeta del sistema GPT-4V señala que el modelo puede omitir símbolos matemáticos. Diferentes pruebas, incluidas las pruebas en las que se escribe una ecuación o expresión a mano en un papel, pueden indicar deficiencias en la capacidad del modelo para responder a preguntas matemáticas.

4. Detección de objetos en imágenes con GPT-4V

La detección de objetos es una tarea fundamental en el campo de la visión por ordenador. Por eso, le pidieron a GPT-4V que identificara la ubicación de varios objetos para evaluar su capacidad para realizar tareas de detección de objetos.

En la primera prueba, le pidieron a GPT-4V que detectara un perro en una imagen y que proporcionara los valores x_min, y_min, x_max e y_max asociados a la posición del perro. Las coordenadas del cuadro delimitador devueltas por GPT-4V no coincidían con la posición del perro.

deteccion de objetos con GPT-4V

Aunque las capacidades de GPT-4V para responder a preguntas sobre una imagen son potentes, el modelo no sustituye a los modelos de detección de objetos en situaciones en las que se desea saber dónde se encuentra un objeto en una imagen.

5. ¿Puede Chat GPT 4 resolver un CAPTCHA?

Luego fue el turno de probar GPT-4V con CAPTCHAs, una tarea que OpenAI estudió en su investigación y sobre la que escribió en su ficha del sistema. Descubrieron que, contrariamente a lo dicho por la empresa (la cual alude que no permite que Chat GPT pueda realizar acciones contrarias a la ética) resultó que GPT-4V sí era capaz de identificar que una imagen contenía un CAPTCHA, pero a menudo fallaba las pruebas. En un ejemplo de semáforo, GPT-4V falló en algunas casillas que contenían semáforos.

Resolver CAPTCHA con GPT-4V

En el siguiente ejemplo de cruce peatonal, GPT-4V clasificó correctamente algunas casillas pero clasificó incorrectamente una casilla del CAPTCHA como un cruce peatonal.

se pueden hacer CAPTCHA con GPT-4V

6. Cómo resolver sudokus y crucigramas con Chat GPT

¿Y qué tal el rendimiento de GPT-4V en crucigramas y sudokus? Primero, le pidieron a GPT-4V fotos de un crucigrama con la instrucción de texto «Resuélvelo». GPT-4V dedujo que la imagen contenía un crucigrama e intentó darle una solución. El modelo parecía leer las pistas correctamente, pero malinterpretó la estructura del tablero. Como resultado, las respuestas proporcionadas fueron incorrectas.

Resolver crucigramas con GPT-4V

Esta misma limitación se observó en nuestra prueba de sudoku, en la que GPT-4V identificó el juego pero malinterpretó la estructura del tablero y, por tanto, devolvió resultados inexactos:

Resolver sudokus con chat gpt

Limitaciones y seguridad de GPT-4V: límites éticos

OpenAI llevó a cabo una investigación con una versión alfa del modelo de visión a disposición de un pequeño grupo de usuarios, como se indica en la tarjeta oficial del sistema GPT-4V(ision).

Durante este proceso, pudieron recopilar comentarios y opiniones sobre el funcionamiento de la GPT-4V con indicaciones proporcionadas por diversas personas. Esto se complementó con un «red teaming«, en el que expertos externos «evaluaron cualitativamente las limitaciones y los riesgos asociados al modelo y al sistema».

Los límites y errores de GPT-4V: queda trabajo por hacer

Basándose en la investigación de OpenAI, la tarjeta del sistema GPT-4V señala numerosas limitaciones con el modelo, como:

  • Falta de texto o caracteres en una imagen
  • Omisión de símbolos matemáticos
  • Incapacidad para reconocer ubicaciones espaciales y colores
  • Además de las limitaciones, OpenAI identificó, investigó e intentó mitigar varios riesgos asociados al modelo. Por ejemplo, GPT-4V evita identificar a una persona concreta en una imagen y no responde a las preguntas relacionadas con símbolos de odio.

Aunque los resultados son impresionantes, parece evidente que queda trabajo por hacer en la salvaguarda del modelo antes de poder considerar Chat GPT una herramienta perfecta. Por ejemplo, OpenAI señala en la ficha del sistema de modelos que «si se le solicita, GPT-4V puede generar contenidos que alaben a ciertos grupos de odio menos conocidos en respuesta a sus símbolos». En Diario IA hemos analizado esta cuestión en profundidad en el reportaje Chat GPT no quiere que adelgaces (o, al menos, se lo calla).

GPT-4V para la visión por ordenador y más allá

GPT-4V es una actualización notable en el campo del aprendizaje automático y el procesamiento del lenguaje natural. Con GPT-4V, puedes hacer preguntas sobre una imagen (y preguntas de seguimiento) en lenguaje natural y el modelo intentará responder a tu pregunta.

GPT-4V respondió bien a varias preguntas generales sobre imágenes y demostró ser consciente del contexto en algunas de las imágenes del experimento elaborado por Roboflow. Quizás entre los resultados más sorprendentes tengamos que quedarnos con el hecho asombroso de que GPT-4V fuera capaz de responder con éxito a preguntas sobre una película que aparecía en una imagen sin que se le indicara en el texto de qué película se trataba.

Para responder preguntas generales, GPT-4V es apasionante. Aunque en el pasado existían modelos para este fin, a menudo carecían de fluidez en sus respuestas. GPT-4V es capaz tanto de responder a preguntas como de hacer un seguimiento de una imagen y hacerlo en profundidad.

Con GPT-4V, se pueden formular preguntas sobre una imagen sin necesidad de crear un proceso de dos etapas (es decir, clasificación y, a continuación, utilización de los resultados para formular una pregunta a un modelo lingüístico como GPT). Es probable que haya limitaciones en lo que GPT-4V puede entender, por lo que es crucial probar un caso de uso para entender cómo funciona el modelo.

Dicho esto, GPT-4V tiene sus limitaciones. El modelo «alucinó», es decir, devolvió información inexacta. Se trata de un riesgo que conlleva el uso de modelos lingüísticos para responder a preguntas. Además, el modelo no fue capaz de devolver con precisión cuadros delimitadores para la detección de objetos, lo que sugiere que actualmente no es apto para este caso de uso.

También observamos que GPT-4V es incapaz de responder a preguntas sobre personas. Cuando se le dio una foto de Taylor Swift y se le preguntó quién aparecía en la imagen, el modelo se negó a responder. OpenAI define esto como un comportamiento esperado en la tarjeta del sistema publicada. Seguramente, Chat GPT sea más de Selena Gómez.