divulgacion

GPT-4o ya no “describe imágenes”, las pinta desde su mente

GPT-4o genera imágenes directamente desde tokens visuales y difusión, sin delegar en un modelo separado. Aquí se explica cómo funciona ese proceso paso a paso.

Juan Antonio Casado

28 mar. 2025 • 4 min de lectura

Creado: 2025-03-28 06:41

Salvo que hayas estado los dos últimos días metido en una cueva, te habrán llegado por redes y canales de chat imágenes creadas por la última versión de generación de imágenes de GPT-4o. Pero ¿en qué se diferencia este sorprendente modelo de generación de imágenes del anterior o de otros similares?

Ahora, GPT-4o es multimodal no solo en su entrada, sino también en su salida. En lugar de generar instrucciones que pasa a un modelo “pintor”, GPT pinta él mismo la imagen directamente desde su “cerebro“. Pero ¿cómo lo hace?

Como viene siendo habitual, no hay información al respecto. Las empresas, en este caso OpenAI, no quieren dar pistas a la competencia, pero la comunidad de expertos se estrujan las neuronas, en este caso las de verdad, para intentar comprender su funcionamiento.

Vamos a ver por dónde van las especulaciones:

¿Qué es GPT-4o y qué hace?

GPT-4o es una inteligencia artificial que puede hacer muchas cosas, como escribir texto, responder preguntas y, en este caso, crear imágenes. Por ejemplo, si le dices “dibújame un gato”, GPT-4o puede generar una imagen de un gato desde cero. Pero, ¿cómo lo hace?

El proceso de crear una imagen, paso a paso

Paso 1: Entender la idea (el “prompt”)

Imagina que le das una instrucción a GPT-4o: “Quiero una imagen de un gato naranja sentado en un árbol”. Esto es como si le dieras una idea general a un artista: “Pinta un gato”. La IA primero “piensa” en qué significa un gato naranja y cómo debería verse en un árbol.

Paso 2: Crear un “boceto” con piezas pequeñas (los “tokens visuales”)

En lugar de dibujar la imagen completa de una vez, GPT-4o empieza creando un “boceto” muy básico, pero no lo hace con lápiz y papel, sino con algo que se ha dado en llamar tokens visuales. Piensa en estos tokens como si fueran piezas de un rompecabezas:

Cada pieza (o token) representa una parte pequeña de la imagen, como “la forma de la cabeza del gato”, “las orejas”, “el color naranja”, o “las ramas del árbol”.
GPT-4o va creando estas piezas una por una, como si estuviera armando el rompecabezas. Por ejemplo, primero decide que la cabeza del gato va en la parte superior, luego agrega las orejas, después los ojos, y así sucesivamente.

Esto es más fácil para la IA porque trabajar con estas piezas pequeñas, con tokens, es menos complicado que dibujar cada detalle de la imagen desde el principio, con pixels.

Si tienes más años que un bosque te recordará a cómo se cargaban las imágenes con los modems

Paso 3: Convertir el boceto en una imagen real (usando “difusión”)

Ahora que GPT-4o tiene su “boceto” hecho de piezas, necesita convertirlo en una imagen que podamos ver, con colores, texturas y detalles. Aquí entra en juego un proceso que se llama difusión , que es donde sucede la magia que transforma algo borroso en algo nítido:

La IA empieza con una imagen que es puro “ruido”, como si vieras una televisión con estática (si no tienes ya una edad seguro que no sabes de qué te hablo), solo puntos de colores al azar.
Luego, usando las piezas del boceto (los tokens), la IA va “limpiando” ese ruido poco a poco, como si estuviera quitando capas de niebla para revelar la imagen.
En este caso, la IA no limpia toda la imagen de una vez, sino que lo hace de arriba hacia abajo. Primero hace que la parte superior (como la cabeza del gato) se vea más clara, y luego va bajando hacia el cuerpo, las patas y el árbol.

Este proceso de difusión es como si un pintor empezara con un lienzo lleno de manchas y, poco a poco, fuera pintando los detalles hasta que la imagen queda perfecta.

Paso 4: Añadir detalles (Rolling Diffusion)

Hay bastantes análisis que mencionan un proceso llamado Rolling Diffusion , que es una forma especial de hacer este proceso de difusión:

Imagina que el pintor (la IA) no pinta toda la imagen al mismo tiempo, sino que se enfoca en una parte a la vez, como si tuviera una linterna que ilumina solo una sección del lienzo.
Además, empieza desde arriba (la cabeza del gato) y va bajando (hacia las patas y el árbol). Esto hace que la imagen se forme de manera ordenada, y por eso, cuando miras el proceso, primero ves la parte superior más clara y luego el resto se va completando.

Este método ayuda a que la imagen sea más coherente, porque la IA puede concentrarse en una parte a la vez y asegurarse de que todo encaje bien. Además, computacionalmente es mucho más escalable. Los servidores de OpenAI deben de llevar dos días echando humo con el hype de las imágenes estilo Estudio Ghibli.

Paso 5: Terminar la imagen

Al final del proceso, la IA termina de “limpiar” todo el ruido y te entrega una imagen completa y detallada: un gato naranja sentado en un árbol, con pelo suave, ojos brillantes y ramas bien definidas. ¡Listo para que lo veas!

¿Por qué hacerlo en estos pasos?

Hacerlo de esta manera (primero crear un boceto con tokens y luego usar difusión) es como si un chef primero escribiera una receta (el boceto) y luego horneara el pastel (la imagen final). Es más fácil y eficiente para la IA:

El boceto (tokens): Le ayuda a la IA a planificar la imagen sin preocuparse por los detalles pequeños al principio.
La difusión: Le permite a la IA agregar todos los detalles bonitos, como el pelaje del gato o las hojas del árbol, de una manera que se vea muy realista.

¿Por qué se ve borroso al principio?

En este post puedes ver una imagen donde se ve que la generación empieza con algo borroso que poco a poco se hace más claro. Esto pasa porque:

Al principio, la IA está “limpiando” el ruido, pero aún no ha terminado. Es como si vieras al pintor trabajando: primero ves solo formas vagas (la cabeza del gato), y luego los detalles (los ojos, el pelaje) van apareciendo.
Además, como la IA trabaja de arriba hacia abajo, la parte superior de la imagen se ve más clara antes que la parte inferior.

Como te decía, son especulaciones, pero es muy probable que el método con el que consiguen estos resultados, con más adherencia a las instrucciones, coherencia entre imágenes e incluso detalles, como letras sin casi errores, marquen un avance en estos modelos que se reflejen en breve en los competidores o en otros ámbitos, como el vídeo o la música.

Stay tuned!!!