IA aplicada

La IA como "manitas"

Un ventilador averiado, o3 analizando placas PCB con zoom en Python y un polímetro. Cómo los modelos razonadores con herramientas cambian hasta el bricolaje.

Juan Antonio Casado

08 jun. 2025 • 4 min read

Creado: 2025-06-08 09:02

Hace unos meses cayó un rayo en el edificio y dañó un par de aparatos electrónicos. Nada grave, lo cubre el seguro, comprar nuevos y p’alante. Estas semanas empieza a hacer calor y, al poner el ventilador de techo, veo que no funciona. Shit, el rayo :/ Procrastino todo lo posible y hoy domingo decido que voy a echar un vistazo antes de que llegue el Calor de Verdad ™.

Escalera, destornilladores, gafas (no por protección, por presbicia) y llego a la fuente del problema, una cajita fácilmente desmontable que controla el ventilador, que se identifica en una etiqueta como DC Motor Controller, y probablemente esté frito. Mirar referencia, buscar en internet y cambiar. … o no? ¿y si aprovecho el mayor generador de testosterona, que es REPARAR COSAS!!? 😂 Y como no me apetece meterme solo en la aventura, uso a mi amigo ChatGPT para que me ayude.

Primer aprendizaje: GPT-4o se usa sólo para textos básicos

Sin darme cuenta, uso el modelo por defecto que tenía en la app móvil (4o) le subo una foto, uso la opción de “Buscar en internet” y le digo que me busque dónde puedo comprar el controlador. Me da una serie de respuestas vagas que no son lo que esperaba; me doy cuenta del modelo que estoy usando, cambio a o3, que todo lo puede, y le digo “Busca mejor y dame una solución”. o3 se dedica durante un minuto y medio a recorrerse internet, buscar opciones, leer foros de bricolaje… Ve que el modelo en concreto está descatalogado, analiza los parámetros del controlador para ofrecer sustitutos y me proporciona una tabla con controladores compatibles, enlaces, y detalles sobre cómo sustituir el bicho en cuestión.

Pero o3 comete un error garrafal, me dice que, si me pica la curiosidad, eche un vistazo dentro de la caja, que igual es un fusible. Allá vamos!!

Ya me adenta que no merece la pena, pero…

La potencia de las herramientas en un modelo de lenguaje

Ojo a lo que viene ahora, abro el cacharro y, como a primera vista no veo nada,le paso unas fotos de la placa para que me ayude a localizar el componente. En mis años mozos estudié electrónica y no se me caen los anillos por desoldar un componente y cambiarlo. 🌡️ Nivel de testosterona en ese momento: 6 sobre 10.

Os recomiendo que siempre miréis las cadenas de razonamiento de los modelos, donde dice “pensó durante…”. En nuestro caso son dos minutos y medio de operaciones y reflexiones sobre mis imágenes que nos dan muchas pistas de cómo funcionan los algoritmos y para qué los podemos usar. Lo primero que “se dice” a sí mismo es:

Tengo imágenes de la placa PCB que el usuario proporcionó. Quiere identificar el fusible, así que debo inspeccionar las imágenes con cuidado. No puedo mostrar la imagen directamente, pero puedo examinarla para detectar componentes, centrándome en el área inferior izquierda donde sospecho que podría estar el fusible. Utilizaré herramientas para analizar la imagen e identificarlo, sin mostrarla directamente, porque el proceso es más interno.

Así que se abre una herramienta de programación en Python que ejecuta en su propio servidor y va haciendo recortes de la imagen y zoom sobre ellas!!! para ver bien los componentes. Va analizando poco a poco toda la extensión de la placa, detectando los componentes y reflexionando sobre ello, con frases como “En el centro, veo un componente vertical que podría ser un fusible o un diodo zener. Este está etiquetado como D6, lo que indica que en realidad es un diodo, no un fusible.”

Así de fácil??? nah

Cuando termina sus investigaciones me da instrucciones detalladas de cómo localizar el componente y cómo comprobar si el componente está dañado. Uso un polímetro para ver continuidad y el fusible está intacto. 🌡️ Nivel de testosterona: 3 sobre 10.

Claro, que eso ya lo había previsto el modelo, en un apartado de su respuesta me indica que si el fusible está bien que compruebe el puente rectificador de diodos, con instrucciones de cómo localizarlo.

¿Somos o no el mejor equipo de reparación?

Busco el componente, vale unos céntimos en Aliexpress pero 20€ y un mes en que me lo envíen. Podría buscarlo en una tienda de electrónica pero no tengo la semana para pasearme Madrid, así que vuelvo a la respuesta inicial y pido el controlador completo (11€).

¿Qué hemos aprendido?

Las capacidades multimodales de los LLMs, es decir, poder recibir imágenes como fuente de datos, además de texto, unidas al uso herramientas, buscar en internet, usar código para recortar y hacer zoom en las imágenes, … multiplica la capacidad de los algoritmos de IA.

Los modelos son para lo que son. Los modelos conversadores, como 4o en el caso de OpenAI (le queda poca vida ya, GPT5 estará aquí en julio, se espera) son muy útiles para tareas de lenguaje: resumir textos, escribir mails, … pero no nos fiemos del conocimiento que tienen adquirido (marcar “buscar en internet” para cualquier cosa que requiera conocimiento especializado) ni de su razonamiento, porque sueltan la primera palabra más probable y siguen desde ahí.

Los modelos razonadores son más listos que tú (y que yo). Reflexionan, sacan conclusiones, se retan, dan vueltas y más vueltas a los problemas hasta que encuentran una solución que les parece plausible. Los podemos usar para multitud de cosas, no sólo para lo obvio. Pongámoles a prueba porque este tipo de usos van a ser más importantes de lo que nos imaginamos en el momento que las capacidades agénticas (el poder trabajar de manera autónoma relacionándose con el mundo real, fuera de su mundo algorítmico) se desarrollen para el gran público.

Vivimos tiempos interesantes, hasta para el bricolaje 😉

Primer aprendizaje: GPT-4o se usa sólo para textos básicos

La potencia de las herramientas en un modelo de lenguaje

¿Qué hemos aprendido?

Si te ha gustado, suscríbete y te aviso del próximo