OpenAI acaba de anunciar la tercera versión de su generador de imágenes basado en IA, DALL-E 3. A pesar de que DALL-E fue la primera herramienta de todas para hacer imágenes con IA (la web disruptiva, la que empezó toda esta locura generalizada con la que los diseñadores gráficos se han ido al paro y las madres van a juicio después de ver fotos de sus hijas desnudas circulando por la red), podría decirse, decíamos, que DALL-E ha gozado de un 2023 un tanto discreto en términos de popularidad, debido a la superioridad de sus rivales en el campo de la generación de imágenes con inteligencia artificial, Midjourney y Stable Diffusion (y el recién lanzado Adobe FireFly) Hay mucha información de interés en la batalla de Dall e 2 vs Dall e 3

(Relacionado: Guía para crear logos con IA gratis)

DALL-3 trae importantes mejores, pero el salto cualitativo no es equiparable al que vimos con su primera iteración. Tal y como ocurre con otros sectores tecnológicos como el de la telefonía y los videojuegos, la cantidad de novedades con cada nueva versión de una inteligencia artificial será menor en cantidad y factor sorpresa. Hablemos claro: el iPhone 15 es, para mucha gente, una estafa, y el salto tecnológico entre los gráficos de Playstation 5 y 4 ni se acerca al visto con PSX y PS2. Siguiendo esta idea, los momentos wow que nos ofrece DALLE 3 existen y están, pero no sería de extrañar que muchos los reciban con un somero y sereno (pero contundente) «meh».

De hecho, según como se mire, DALL.E 3 incluso es un paso atrás: se acabó imitar a otros artistas (más sobre eso en breve).

DALL-E 3 vs DALL-E 2: ¿cuáles son las novedades?

Diferencias en los resultados de DALL-E 2 y DALL-E 3 tras usar el mismo propmpt.
Dall e 2 vs dall e 3: Diferencias en los resultados de DALL-E 2 y DALL-E 3 tras usar el mismo prompt.

En el año 2021, un hito sin precedentes sacudió tanto al mundo de la tecnología como al panorama global de la creatividad: el lanzamiento de DALLE. Este innovador modelo de inteligencia artificial se reveló como un verdadero catalizador de la imaginación, deslumbrando a todos con su capacidad para fusionar la lógica binaria de las computadoras con la riqueza de la imaginación humana.

Dos años después, y con una miríada de aplicaciones alternativas como Stabel Difussion o Adobe Firefly en el mercado, la tercera actualización de DALL-E incorpora una serie de nuevas funciones que persiguen devolver a DALL-E al puesto número 1 en la carrera pro ser el mejor generador de imágenes automáticas con IA. A continuación, en DiarioIA te proponemos un repaso a lo largo de la breve (pero intensa) historia de actualizaciones de DALL-E para ver cómo ha evolucionado la herramienta desde su primera versión hasta la versión recién anunciada.

(Relacionado: ¿Te imaginas un Microsoft Paint con inteligencia artificial?: Ya está aquí Paint Cocreator)

(Relacionado: Las 7 claves para saber cómo escribir un buen prompt en Chat GPT)

Cómo usar DALLE 3: Integración con Chat GPT

Con tal de recuperar su trono arrebatado, la empresa detrás de ChatGPT tenía que ofrecer algo que sus competidores no pudieran, y eso es exactamente lo que logró con la actualización DALL-E 3. Y no fue un cambio menor.

A diferencia de otros generadores de imágenes, DALL-E por fin está integrado con ChatGPT. Esto es muy importante, ya que una buena comprensión del texto de entrada es necesaria para lograr el resultado visual deseado. Y puesto que OpenAI es actualmente el líder entre los desarrolladores de grandes modelos lingüísticos, es natural que utilice (y debería utilizar) su destreza para mejorar la generación de imágenes en términos de calidad de salida y facilidad de uso, de modo que los usuarios no tengan que aprender a hablar con el modelo antes de que pueda producir lo que realmente quieren.

Comparativa DALL E 2 VS DALL E 3
Comparativa de las diferencias de resultados para el mismo prompt en DALL-E 2 (izquierda) Vs. DALL-E 3

¿El fin de la ingeniería de prompts para crear imágenes con IA?

La ingeniería (o creación) de prompts se ha convertido en una de las frases de moda del último año en el campo de la IA, lo que ha llevado a la creación de nuevos puestos de trabajo en este campo.

No obstante, todo aquel que pretenda estar al día (y mantener su peusto de trabajo) va a tener que ponerse las pilas y bajo ningún concepto quedarse dormido: visto lo humanas que se han vuelto las interacciones con la IA, la de saber cómo generar buenos prompts es una profesión que evoluciona a un ritmo nunca visto antes. Quizás incluso demasiado rápido, y esto queda bien patente con DALLE 3.

(Relacionado: ¿Es Craiyon la mejor IA gratuita para hacer imágenes?)

En su post para presentar DALL-E 3, OpenIA hizo un anuncio un tanto inquietante que daba a entender que ya no sería necesario saber hacer prompts: «Los sistemas modernos de conversión de texto en imágenes tienden a ignorar las palabras o las descripciones, lo que obliga a los usuarios a aprender ingeniería rápida. DALLE 3 representa un salto adelante en nuestra capacidad para generar imágenes que se adhieren exactamente al texto que nos proporcionas»

«DALL-E 3 está integrado de forma nativa en ChatGPT, lo que te permite utilizar ChatGPT como compañero de intercambio de ideas y refinador de tus mensajes. Sólo tienes que pedirle a ChatGPT lo que quieres ver, desde una simple frase hasta un párrafo detallado».

Es lo que se conoce como «ingeniería de prompts (o instrucciones)», una práctica que consiste en combinar ciertas palabras y frases clave para empujar a la IA en la dirección deseada, en lugar de limitarse a describir lo que se quiere de forma natural, y de la cual te hablamos en profundidad en nuestra guía con las 7 claves para escribir mejores prompts en ChatGPT.

Pues bien, según OpenAI, esto no será necesario con DALL-E 3, ya que se espera que comprenda mucho mejor el sentido del lenguaje escrito, como se presenta en este vídeo promocional:

Con DALL-E 3 se acabó imitar el estilo de otros artistas (vivos) en imágenes con IA

Este no es un cambio menor. Es, según se mire, incluso una mala noticia: DALL-E 3 rechazará los mensajes en los que los usuarios pidan a la IA que cree una obra de arte inspirada en el estilo de un artista vivo (con los muertos sí que se podrá). Al mismo tiempo, los artistas también podrán optar por que no se utilicen sus obras para entrenar futuras iteraciones de la IA generativa, al menos eso es lo que afirma OpenAI.

Estos nuevos límites se producen en un momento en que está aumentando considerablemente la presión legal contra los derechos de autor de las obras de IA en los tribunales de todo el mundo, al tiempo que los generadores de arte de IA también se enfrentan a demandas por sus datos de entrenamiento.

Imagen de patatas creadas con DALL-E 3
Imagen del REY PATATA generada con DALL-E 3

Además, OpenAI ha aplicado aplicando salvaguardias adicionales, restringiendo la herramienta para que no genere contenidos violentos, para adultos o que inciten al odio.

Los competidores directos del mercado de masas, como Midjourney, pueden verse obligados a seguir un camino similar, pero las soluciones gratuitas y de código abierto como Stable Diffusion no necesitarán hacerlo, ya que cualquiera puede ejecutar una instancia local del servicio y entrenarlo con las imágenes que desee.

Para ello, por supuesto, hacen falta algunos conocimientos, sobre todo porque es poco probable que SD pueda igualar la destreza de ChatGPT en el manejo del lenguaje conversacional.

DALL-E 2 Vs. DALL-E 1

OpenAI abrió DALL-E al resto del mundo con el lanzamiento de DALL-E 2 en septiembre de 2022. Después, en marzo de 2023, Microsoft, una de las primeras grandes tecnológicas en invertir en OpenAI, que DALL-E se incorporaría a Bing, el motor de búsqueda de la compañía, en un intento de seguir insuflando vida al asfixiante motor de búsqueda. A continuación te explicamos cuáles fueron los principales cambios introducidos en la segunda actualización de DALL-E en comparación a su versión inicial.

Claridad entre imágenes y textos + rapidez de resultados

DALL-E 1 generaba elementos visuales y artísticos realistas a partir de un texto sencillo. Seleccionaba la imagen más adecuada de entre todas las salidas para ajustarse a los requisitos del usuario.

DALL-E 2 evolucionó en el sentido de ser capaz de descubrir el vínculo entre los elementos visuales y el lenguaje que los describe. Emplea una técnica conocida como «difusión», que comienza con un patrón de puntos aleatorios y lo modifica gradualmente hasta asemejarse a una imagen cuando reconoce características particulares de ésta. A pesar de producir más gráficos, es más rápido, lo que significa que genera más variaciones en pocos segundos.

Imágenes realistas y de alta resolución

La primera versión de DALL-E sólo podía renderizar imágenes creadas por la IA de forma caricaturesca, a menudo sobre un fondo sencillo. Sin embargo, DALL-E 2 evolucionó para poder producir imágenes realistas, más grandes y detalladas. Es significativamente más adaptable, y también capaz de proporcionar imágenes de mayor resolución. Lo entenderás perfectamente con el ejemplo que te mostramos a continuación:

Dall-e vs Dall-e2

Edición y retoque más sencillos

DALL-E «repinta» o sustituye de forma inteligente áreas específicas de una imagen. Digamos que tienes una foto de tu casa, pero la mesa está cubierta de desorden. Sólo tienes que dibujar un recuadro alrededor de la sección de la imagen que deseas cambiar y escribir instrucciones en lenguaje natural para describir el cambio que quieres hacer. El generador de imágenes de IA te mostrará varias interpretaciones diferentes de la instrucción en cuestión de segundos, y podrás elegir la que más te guste.

(Relacionado: Desnudar con IA: un delito penado con 9 años de cárcel en España)

DALL-E 2 tiene muchas más posibilidades, incluida la de crear nuevos objetos. Por ejemplo, un jarrón de flores sobre una mesa. Como DALL-E 2 conoce el resto de la escena, el generador de imágenes de IA incluirá elementos como la iluminación y las sombras adecuadas, así como los materiales apropiados. Puede editar y retocar fotografías con precisión basándose en una simple descripción. Puede rellenar o sustituir parte de una imagen con imágenes generadas por IA que se mezclan a la perfección con el original.

Retocar imagenes con DALL E 2

Capacidad para producir múltiples iteraciones de una imagen.

DALL-E 2 cuenta con una nueva función llamada variaciones, en la que el usuario proporciona al generador de imágenes de IA una imagen de muestra y éste genera tantas variaciones como desee, desde aproximaciones hasta impresiones. Incluso puedes añadir otra imagen, y hará una polinización cruzada de las dos, fusionando las partes más importantes de cada una.

Evolución de DALL-E: Conclusiones

El lanzamiento en 2021 de DALL E no solo conmocionó al mundo de la tecnología, sino que también inspiró a creativos de todos los rincones del planeta. Artistas visuales, escritores, diseñadores y creadores de contenido vieron en DALL-E una herramienta inigualable para dar rienda suelta a su imaginación. Las posibilidades parecían infinitas, desde la generación de ilustraciones únicas hasta la creación de historias visuales que transportaban a las personas a mundos jamás imaginados.

DALL-E 1 y DALL-E 2 fueron ejemplos de cómo las personas creativas y los sistemas inteligentes pueden trabajar juntos para construir cosas nuevas que, en última instancia, mejorarán nuestro potencial creativo. La segunda versión de este generador de imágenes supuso su confirmación como herramienta a tener en cuenta: DALLE ya no era sólo un experimento sino una herramienta perfectamente válida para sustituir a diseñadores gráficos.

Con DALL.E 3, el generador de imágenes entra oficialmente en la mayoría de edad, con cambios pensados para hacer de ella una herramienta accesible para el mayor público posible, y respetuosa con unos marcos éticos y legales en constante evolución. Vistas sus limitaciones ene ste sentido, podríamos estar presenciando el principio de la fragmentación del mercado que vemos en otros servicios y productos relacionado con IA, según el grado de flexibilidad que uno necesite.