Seguimos explorando…

Deep Research no es o3 con más búsquedas: es un protocolo de búsqueda, reflexión y síntesis iterativa. La diferencia importa cuando necesitas profundidad real.

Seguimos explorando…
Deep Research no es o3 con más búsquedas: fuerza un protocolo de búsqueda, reflexión y nueva búsqueda hasta que el modelo considera que la respuesta es sólida. Esa diferencia importa cuando necesitas profundidad real, no velocidad. Lo explico abajo.

¿Y si los LLMs no pensaran “una vez” sobre nuestra pregunta, sino diez veces, en silencio, antes de responderte? 🤯

El sábado, hablando con mi amigo Jorge Sanchez sobre #o3 y #DeepResearch, salió un tema clave: entender cuándo lo que pasa “por debajo” al interactuar con un LLM empieza a ser importante para tomar decisiones informadas. (Spoiler: de momento, siempre)

En concreto, hablábamos sobre si usar o3 sin DeepSearch implicaba una caída importante de rendimiento.

En mi opinión, no es tanto “caída” como “estrategia distinta”. El modelo ya decide cuándo buscar y cuándo no, incluso sin que se lo pidas, pero Deep Research fuerza un protocolo más elaborado: búsqueda → reflexión → nueva búsqueda → síntesis, hasta llegar a una respuesta que le parece sólida. Es lento, sí (a veces tarda 20 minutos), pero eso no es casual: está recorriendo un árbol de prompts invisibles, ramificaciones sucesivas que van refinando la respuesta. Algunas fuentes que ha usado, ni siquiera aparecen en el resultado final: fueron solo pasos intermedios. (Esto luego me lo discutió GPT)

Esto no se hace con “magia negra”, sino con prompts de sistema no públicos que obligan al modelo a pensar de manera estructurada. Por eso, no es que o3 rinda “peor” sin Deep Research, sino que Deep Research habilita un nuevo tipo de tarea: más densa, trazable y verificable.

Vamos que, para el día a día, o3 + Search va sobrado, pero si necesitas profundidad, Deep Research es otro nivel.

¿Estamos empezando a ver cómo los LLMs se convierten en verdaderos agentes cognitivos? ¿Será o5 el meta-modelo que decida por nosotros sobre qué modelo corre cada sub agente que use? Seguimos explorando…