Relacionado: MidJourney se actualiza a v6, su modelo más realista hasta la fecha

Hace sólo dos días que está entre nosotros y, francamente, es imposible elegir cuáles son las mejores imágenes generadas por la IA MidJourney. La nueva actualización del generador de imágenes con IA más famoso del mundo (con permiso de DALL-E 3 y Stable Diffusion) produce unos resultados tan extraordinarios que una pregunta comienza a sobrevolar el panorama de las imágenes automáticas: ¿y ahora qué? ¿qué viene después de MidJourney v6?

Imagen generada con MidJourney v6 por @Coffevectors
Imagen generada con MidJourney v6 por @Coffeevectors

Midjourney, la herramienta de creación de imágenes basada en IA, lanzó el pasado viernes su la última actualización de su modelo en fase alpha, Midjourney v6.

La nueva versión ofrece una serie de mejoras y nuevas funciones destinadas a mejorar la experiencia del usuario y, sobre todo, generar imágenes más realistas. MidJourney v6 ha sido el resultado de nueve meses de duro trabajo e investigación. Y se nota.

Algunas de las nuevas características de Midjourney v6 incluyen:

  • Seguimiento mucho más preciso de las indicaciones, así como indicaciones más largas.
  • Mayor coherencia y conocimiento del modelo
  • Mejoras en las indicaciones y la remezcla de imágenes
  • Capacidad para dibujar texto
  • Escaladores mejorados, con modos «sutil» y «creativo» (aumento de la resolución 2 veces).

Relacionado: Cómo Crear Imágenes con IA Gratis [GUÍA DEFINITIVA 2024]

Evolución de MidJourney en menos de dos años desde su primera versión a la v6 lanzada en diciembre de 2023.

¿Las imágenes con IA han tocado techo?

Si tenemos en cuenta lo mucho y rápido que ha mejorado este generador de imágenes con IA, a uno se le queda un poco una sensación de que aquella travesía que se anunciaba larga y emocionante ha terminado siendo mucho más breve. Hemos llegado a nuestro destino mucho antes de lo esperado.

Las imágenes que MidJourney generaba hace poco más de un año dejaban todavía mucho espacio para la mejora. Basta ver, por ejemplo, la mastodóntica diferencia entre cómo lucía este ficticio cumpleaños de Stalin en noviembre de 2022 y el aspecto que presenta ahora:

Stalin generado por MidJourney

Una de las mejoras más aplaudidas es la coherencia del prompt, lo que significa que MidJourney es capaz de entender mucho mejor instrucciones muy específicas. Sirva de ejemplo la siguiente imagen, compartida en Twitter X por @NickFloats, con un prompt tan específico que es casi un relato:

Prompt: Fotograma de película de 35 mm, dos tomas de un hombre negro de 50 años con barba gris que lleva una chaqueta marrón y una bufanda roja junto a una mujer blanca de 20 años que lleva un abrigo de pata de gallo azul marino y crema y un gorro de punto negro. Caminan por el centro de la calle a medianoche, iluminados por el suave resplandor anaranjado de las farolas –ar 7:5 –style raw –v 6.0

Generación de texto en imágenes: la asignatura pendiente de la inteligencia artificial

Ejemplo de texto generado por MidJourney con fallos
Ejemplo de texto generado por MidJourney con fallos

Parece evidente que sólo queda un ámbito con margen para la mejora: las imágenes con texto. Y no precisamente porque MidJourney lo haga mal.

Como te mostramos a continuación, MidJourney v6 ha dado ya sobrados ejemplos de ser capaz de introducir texto coherente en imágenes, jugando con un sinfín de tipografías y efectos.

El problema está en que detrás de estas imágenes impolutas suele haber muchos intentos infructuosos. No lo verás compartido en redes sociales, pero para conseguir una imagen con texto sin fallos hecha con inteligencia artificial suele haber bastantes intentos fallidos detrás. Ejemplo de ello es la imagen de la derecha, y las palabras Biology y Female, o esta entrañable familia estadounidense:

Wont call 911 in this house

Reinterpretación del famoso meme del perro dentro de la casa en llamas, generada por MidJourney v6.
Reinterpretación del famoso meme del perro dentro de la casa en llamas, generada por MidJourney v6.

No vas a ver ninguna imagen de Midjourney con textos largos porque, por ahora, no es posible: como sucede con DALL-E 3, la dislexia de la IA sigue siendo una realidad y, a poco que le pidas la representación de un texto de más de seis o siete letras, las probabilidades de que contenga errores aumentan considerablemente (conforme aumenta el número de palabras).

Modelos de Aprendizaje Profundo: Las IA generativas, como DALL-E, utilizan modelos de aprendizaje profundo, específicamente redes neuronales. Estas redes se entrenan con enormes conjuntos de datos de imágenes y aprenden a generar nuevas imágenes imitando los patrones que encuentran en estos datos.

Falta de Comprensión Semántica: Aunque son avanzadas, estas IA no «entienden» las imágenes o textos de la forma en que lo hacemos los humanos. No tienen una comprensión semántica (de significado) o contextual del mundo. Generan imágenes basándose en asociaciones estadísticas entre los píxeles y las descripciones que reciben.

¿Por qué le cuesta tanto a la inteligencia artificial generar imágenes con textos sin fallos?

Putin manifestándose por la libertad de Ucrania. Sin duda, una imagen que sólo podremos ver gracias a MidJourney v6.
Putin manifestándose por la libertad de Ucrania. Sin duda, una imagen que sólo podremos ver gracias a MidJourney v6.

¿Por qué MidJourney no se comporta siempre como ChatGPT, el cual jamás ha tenido problemas para colocar una palabra detrás de otra de forma coherente y con significado? Podemos destacar seis motivos:

  1. Aprendizaje Basado en Patrones Visuales: DALL-E 3, MidJourney o cualquier otro generador de imágenes, aprende a partir de un gran conjunto de imágenes. Aprende a reconocer y replicar patrones visuales, pero no entiende el significado de los textos. Esto es como aprender a copiar la forma de las letras sin saber leer.
  2. Falta de Comprensión del Lenguaje: La IA no tiene una comprensión real del lenguaje humano. Puede reconocer que ciertas formas corresponden a letras y palabras, pero no entiende su significado ni cómo se combinan para formar frases coherentes.
  3. Limitaciones del Modelo de Entrenamiento: Durante su entrenamiento, el generador de imágenes observa muchas imágenes, algunas con texto. Pero este texto es solo parte del conjunto de datos visual. El modelo no se entrena específicamente para manejar texto, sino para crear imágenes en general.
  4. Ambigüedad en los Datos de Entrenamiento: Los datos de entrenamiento pueden incluir textos en diferentes idiomas, estilos de letra, y contextos. Esto introduce una gran variedad de formas y estilos que la IA intenta imitar, pero sin entender su significado o contexto.

    MidJourney v6 ya es capaz incluso de respetar la tipografía de marcas famosas como Coca-Cola.
    MidJourney v6 ya es capaz incluso de respetar la tipografía de marcas famosas como Coca-Cola.
  5. Prioridad a lo Visual sobre lo Semántico: La prioridad de la IA es crear imágenes que sean visualmente coherentes con la solicitud, no necesariamente generar texto correcto o legible. Su objetivo principal es la estética visual, no la precisión del texto.
  6. Limitaciones Técnicas Actuales: Las tecnologías actuales de IA son muy avanzadas en el procesamiento de imágenes, pero aún están desarrollándose en áreas como la comprensión y generación de texto dentro de estas imágenes.

El perfeccionamiento de la generación de textos en imágenes con IA anticipa la naturaleza de las mejoras que están por venir, las cuales serán más de tipo práctico (o de interfaz, uso y accesibilidad) y estarán menos centradas en el acabado de las imágenes.