Nuevas técnicas de prompting combaten la complejidad en los modelos de IA
Nuevas técnicas de prompting combaten la complejidad en los modelos de IA al optimizar el rendimiento de la inteligencia artificial, reducir costes de cómputo y mejorar la velocidad de respuesta, ofreciendo a las empresas herramientas más eficientes para aplicar en distintos casos de uso.
Qué significa el model bloat
El término model bloat describe el fenómeno en el que los modelos de IA se vuelven innecesariamente grandes y complejos. Esto incrementa el consumo de recursos, eleva los costes de cómputo y ralentiza la velocidad de respuesta. Para las empresas que buscan integrar modelos de razonamiento en sus operaciones, esta es una preocupación creciente, ya que impacta directamente en la productividad y la rentabilidad.
El papel del chain of thought en la IA
Modelos como OpenAI’s o1, DeepSeek-R1 y Google’s Gemini 2.5 utilizan la técnica de chain of thought (CoT) para dividir problemas complejos en pasos lógicos. Esta estrategia ha demostrado ofrecer mayor precisión que generaciones previas, pero también presenta un inconveniente: genera respuestas largas, aumenta la latencia y demanda muchos más recursos computacionales.
Por esta razón, han surgido nuevas técnicas de prompting diseñadas para mantener la eficiencia del razonamiento, reduciendo a la vez los costes y el tiempo de respuesta.
Atom of thought: pensar más rápido dividiendo y conquistando
El atom of thought (AoT) propone un enfoque de divide y vencerás. En lugar de resolver un problema de manera secuencial como hace CoT, divide el desafío en preguntas atómicas que se procesan en paralelo. Luego, reúne estas microrespuestas para construir la solución final.
Según un estudio de la Hong Kong University of Science y la Renmin University of China, cuando se aplicó AoT al modelo GPT-4o mini, logró superar a modelos de referencia en seis benchmarks, mejorando incluso a o3-mini en un 3,4% y a DeepSeek-R1 en un 10,6% en el dataset HotpotQA.
El AoT, al preservar solo la información necesaria y eliminar cálculos redundantes, se muestra como una alternativa eficiente para tareas que requieren precisión sin disparar el gasto computacional.
Cuándo es útil el atom of thought
Expertos señalan que AoT funciona mejor en escenarios estructurados como:
- Demostraciones matemáticas.
- Generación de código.
- Razonamiento técnico paso a paso.
En cambio, no resulta tan efectivo para tareas creativas como la escritura narrativa o conversaciones abiertas, donde la flexibilidad del pensamiento humano supera a la rigidez de la segmentación atómica.
Chain of draft: pensar más rápido escribiendo menos
El chain of draft (CoD) aborda otro problema de los modelos de razonamiento: la verbosidad. Mientras que CoT tiende a producir explicaciones largas y detalladas, CoD guía al modelo a redactar borradores mínimos, similares a notas rápidas o esquemas.
En pruebas con ChatGPT-4o y Claude 3.5 Sonnet, CoD mantuvo o incluso superó la precisión de CoT, pero con una reducción del 92,4% en el número de tokens. Esto implica menor coste y menor latencia, lo que lo hace especialmente atractivo para aplicaciones en tiempo real.
Los investigadores comparan CoD con la manera en que los humanos piensan: captando ideas esenciales en notas breves en lugar de elaborar párrafos interminables.
Skeleton of thought: combinar enfoques
Otra técnica emergente es el skeleton of thought (SoT), que combina elementos de AoT y CoD. Inspirado en cómo los humanos organizan ideas, SoT guía al modelo para crear primero un esqueleto de respuesta y luego expandir cada punto en paralelo.
Con este método, investigadores de Tsinghua University y Microsoft Research lograron acelerar modelos sin modificar hardware ni arquitectura. Por ejemplo, al preguntar sobre estrategias de resolución de conflictos en el trabajo, SoT redujo la latencia de Claude de 22 a 12 segundos, y la de Vicuna 33B V1.3 de 43 a 16 segundos.
El impacto en las empresas
Para las pymes y grandes organizaciones, estas técnicas significan la posibilidad de:
- Reducir costes al disminuir tokens y tiempo de cómputo.
- Mejorar tiempos de respuesta en aplicaciones críticas.
- Optimizar modelos pequeños, haciéndolos más competitivos frente a sistemas más grandes.
- Seleccionar la técnica adecuada según el caso de uso: AoT para problemas técnicos, CoD para interacciones rápidas, SoT para análisis estructurados.
Cuál técnica elegir
No existe una técnica universalmente mejor. La elección depende del caso de uso:
- AoT: útil en tareas que requieren razonamiento lógico complejo.
- CoD: ideal para interacciones en tiempo real y reducción de costes.
- SoT: recomendable para análisis que necesitan tanto estructura como rapidez.
Como explica un experto en prompting, conocer estas herramientas es como manejar un coche: no hace falta entender todo el motor, pero sí saber cómo reaccionar en distintos terrenos. De la misma forma, dominar estas técnicas permite a las empresas sacar el máximo provecho de la IA generativa en escenarios cambiantes.
Leer también: Las mejores apps para controlar gastos personales
