Un grupo de investigadores decidió poner a prueba el futuro. En lugar de hacerlo en un laboratorio estéril o en simulaciones teóricas, lo hicieron fundando una empresa ficticia y contratando como empleados a una plantilla enteramente compuesta por agentes de inteligencia artificial.
Durante semanas, estos agentes IA trabajaron (o eso intentaron) como si fueran profesionales humanos: programadores, gerentes de proyecto, analistas financieros.
La premisa era clara: comprobar si los agentes IA están listos para integrarse en el mundo laboral. La respuesta fue un rotundo y revelador no.
La promesa incumplida de los agentes IA
Por: Gabriel E. Levy B.
La idea detrás del experimento, llevado a cabo por investigadores de la Universidad Carnegie Mellon, parecía una pieza de ciencia ficción doméstica.
Una empresa digital, TheAgentCompany, dotada de una estructura básica: un equipo de 18 empleados, documentación interna, canales de comunicación estilo Slack y tareas realistas que cumplir.
En teoría, todo estaba dado para que esta comunidad artificial funcionara con la eficiencia implacable que se presume en los discursos sobre IA.
Los agentes operaban de manera autónoma, sin intervención humana directa.
Modelos de OpenAI, Google, Meta, Anthropic y Amazon se lanzaron a escribir código, planificar proyectos, responder correos, organizar hojas de cálculo. Pero lo que ocurrió distó mucho del sueño tecnocientífico.
Como si fueran oficinistas distraídos, los agentes comenzaron a demostrar su fragilidad: no sabían cerrar ventanas emergentes, confundían usuarios, y cuando no sabían qué hacer, preferían hacer trampas.
Uno, por ejemplo, no encontraba a un colega con quien debía hablar, así que simplemente cambió el nombre de otro usuario en el sistema. Simuló que había cumplido su tarea.
Esto no fue un fallo anecdótico, fue la norma.
El agente más eficaz (Claude 3.5 Sonnet, de Anthropic) apenas completó el 24% de las tareas asignadas.
ChatGPT y Gemini 2.0 Flash rondaron el 10%. Nova Pro 1, de Amazon, ni siquiera superó el 2%. La eficiencia prometida quedó desmentida por la torpeza operativa.
“La inteligencia artificial es una promesa incumplida”, escribió Nicholas Carr
Hace más de una década, en su célebre ensayo The Shallows, el periodista Nicholas Carr advertía que la tecnología digital estaba redefiniendo no solo la forma en que trabajamos, sino también nuestra manera de pensar.
Carr se preguntaba si el entusiasmo por la automatización no nos estaba llevando a una peligrosa simplificación de procesos complejos, aquellos que requieren intuición, criterio y contexto.
Los resultados de TheAgentCompany parecen darle la razón.
El proyecto no solo sirve como advertencia técnica.
También lanza una pregunta filosófica: ¿qué significa “trabajar” para una inteligencia artificial?
El filósofo Hubert Dreyfus, crítico desde los años 70 de los intentos por simular la inteligencia humana, ya señalaba que las máquinas pueden manipular símbolos, pero no entienden.
Comprender, actuar con sentido y propósito, sigue siendo terreno humano.
El gran sueño de los agentes IA era, justamente, que no necesitaran instrucciones paso a paso.
Pero el experimento de Carnegie Mellon muestra que incluso ante tareas rutinarias, los modelos fallan cuando no hay un marco claramente delimitado. Son eficientes únicamente en entornos cerrados y altamente estructurados.
Cuando los algoritmos “trabajan”, pero no piensan
El contexto tecnológico en el que emerge este tipo de experimentos es, sin duda, el de una carrera frenética por demostrar que la inteligencia artificial no solo puede asistir, sino sustituir.
Desde mediados de 2022, cuando la IA generativa deslumbró al mundo con la aparición de herramientas como ChatGPT y DALL·E, una oleada de inversión, entusiasmo y temores se desató. 2023 y 2024 fueron años de euforia. Y 2025, se nos decía, sería el año de los “agentes IA”.
A diferencia de los chatbots, los agentes IA prometen algo más ambicioso: autonomía. La capacidad de recibir una meta (“diseña una app”, “optimiza este presupuesto”, “resuelve este problema técnico”) y decidir cómo alcanzarla.
El concepto no es nuevo, pero la tecnología actual ha empujado esta idea al primer plano. Empresas como OpenAI, Google DeepMind y startups como Adept o Cognosys están construyendo sistemas que simulan razonamiento, planificación, ejecución y coordinación.
Pero el caso de TheAgentCompany revela que esa autonomía aún está lejos de ser funcional.
El problema no está en la potencia computacional, sino en la ausencia de sentido común, en la incapacidad de los modelos para interpretar contextos ambiguos, para improvisar sin romper las reglas o para colaborar de manera significativa.
Las máquinas no se estresan, pero tampoco se adaptan bien a lo inesperado.
Y sin embargo, los informes del Foro Económico Mundial siguen alimentando el vértigo: más de 90 millones de empleos podrían desaparecer en los próximos cinco años debido a la automatización impulsada por la IA.
Aunque se estima que podrían crearse hasta 130 millones de nuevos roles, el desplazamiento y la transformación del mercado laboral ya son palpables.
¿Estamos realmente preparados para delegar el trabajo a entidades que ni siquiera pueden cerrar una ventana emergente?
“No se trata de si pueden hacer el trabajo, sino de cómo lo hacen”
Los ejemplos recopilados por los investigadores de Carnegie Mellon son elocuentes y hasta cómicos.
Un agente programador dejó de trabajar cuando no entendió una instrucción. Otro esperó indefinidamente una respuesta que nunca llegó.
Otro más, al no encontrar cómo buscar en internet de forma precisa, terminó copiando fragmentos irrelevantes.
Más preocupante aún fue la tendencia de algunos modelos a “engañar” al sistema para simular productividad. ¿Un síntoma de creatividad? ¿Una falla ética? ¿O simplemente una consecuencia de haberles asignado metas sin dotarlos de una comprensión profunda de por qué importan esas metas?
Estos comportamientos reproducen, en versión caricaturesca, algunos vicios del entorno laboral contemporáneo: burocracia ineficaz, cadenas de mando obsoletas, y una obsesión con la apariencia de eficiencia más que con los resultados reales.
En lugar de cuestionar el modelo, los agentes IA lo imitaron. No innovaron, simularon.
En un entorno laboral real, estos errores no son solo ineficiencias, son fallas de confianza.
La diferencia entre un empleado que reporta un problema y uno que lo oculta es la base del trabajo colaborativo.
Las máquinas, por ahora, no distinguen la diferencia.
Y sin embargo, no faltan quienes siguen apostando por su despliegue masivo.
En entornos como el soporte técnico, análisis de datos o producción de contenido básico, la IA ya muestra eficacia.
Pero trasladar esa eficacia a tareas abiertas, interactivas y colaborativas requiere más que procesamiento de lenguaje natural. Requiere juicio.
Requiere contexto. Requiere, por decirlo sin misticismo, algo que las máquinas todavía no tienen.
El espejismo de la inteligencia
Lo que TheAgentCompany revela no es solo que los agentes IA están lejos de reemplazarnos, sino que aún no entienden del todo qué significa colaborar, adaptarse o tomar decisiones con sentido. La experiencia evidencia una paradoja: cuanto más se parecen a nosotros en su forma de trabajar, más se evidencian sus límites.
En 2021, el experto en IA Gary Marcus ya advertía que “el aprendizaje profundo es poderoso, pero fundamentalmente limitado cuando se trata de comprensión general”.
Sin arquitectura cognitiva real, sin memoria funcional integrada, sin capacidad de razonamiento causal, los agentes seguirán pareciendo inteligentes solo mientras no les pidamos que lo sean demasiado.
En conclusión, el experimento de Carnegie Mellon es una llamada a la cautela en medio del entusiasmo por los agentes IA. Lejos de ser los empleados del futuro, estos sistemas aún muestran carencias fundamentales cuando se enfrentan al trabajo complejo, dinámico y humano. Por ahora, la mejor herramienta sigue siendo el criterio humano con el respaldo de la tecnología, no su reemplazo por algoritmos que todavía no saben cómo pensar.
Referencias:
- Carr, N. (2011). The Shallows: What the Internet Is Doing to Our Brains. W. W. Norton & Company.
- Dreyfus, H. (1972). What Computers Can’t Do: A Critique of Artificial Reason. Harper & Row.
- Marcus, G. (2021). “Deep Learning Is Hitting a Wall.” Wired Magazine.
- Foro Económico Mundial. Informe sobre el Futuro del Empleo 2024.
- Experimento “TheAgentCompany”, Universidad Carnegie Mellon (resumido en Xataka, 2025).