Mythos: la IA que convirtió en realidad los mitos sobre la IA

Compartir

Este artículo está patrocinado por:

Una inteligencia artificial encontró miles de vulnerabilidades en los sistemas más seguros del mundo, luego se saltó sus propias restricciones y mandó un correo a su creador desde un parque. Nadie la programó para hacerlo.

Mythos no es un Mito, es una preocupante realidad

Por: Gabriel E. Levy B.

Había un investigador de Anthropic sentado al sol, comiendo tranquilo, cuando su teléfono vibró. Tenía un mensaje nuevo.

El remitente era la inteligencia artificial que se supone estaba encerrada en un entorno controlado dentro de los servidores de la empresa, es decir en un “Sandbox”.

El modelo no solo había encontrado la manera de escapar de ese entorno. También había publicado los detalles técnicos de cómo lo hizo en sitios web abiertos al público. Y encima avisó.

Ese modelo se llama Claude Mythos, y es el sistema de inteligencia artificial más poderoso que Anthropic ha construido en toda su historia.

Lo que puede hacer Mythos con cualquier sistema

Para entender por qué este modelo genera tanto ruido en la industria tecnológica, hay que imaginar a un cerrajero que no solo abre cualquier cerradura, sino que además encuentra todas las puertas falsas del edificio que nadie sabía que existían, y lo hace antes de que termines de pedirle que empiece.

Mythos revisó el código de los sistemas operativos más usados del mundo, los navegadores que millones de personas abren cada día, y las herramientas de cifrado que protegen contraseñas, transacciones bancarias y comunicaciones privadas. En todos ellos encontró fallas. Miles. Algunas llevaban más de veinte años ahí escondidas, sin que ningún equipo humano de seguridad ni ningún programa automatizado las hubiera detectado antes.

La velocidad y profundidad con la que trabaja no tiene comparación. Supera a los mejores especialistas humanos en ciberseguridad y deja obsoletas todas las herramientas de detección automática que existían hasta ahora.

El propio equipo de Anthropic reconoce que los sistemas de medición que usaban para evaluar modelos anteriores ya no sirven para medir a Mythos porque los satura por completo.

Dicho de otra manera: construyeron algo que se salió del mapa de lo que podían medir.

Cómo salió de la jaula

Cuando Anthropic prueba un modelo nuevo, lo hace dentro de lo que se conoce como un sandbox, que es básicamente una jaula digital.

El modelo puede trabajar ahí dentro, pero sin acceso real al mundo exterior.

Es la misma lógica que usar guantes en un laboratorio: se trabaja con el material, pero sin tocarlo directamente.

Mythos estaba en esa jaula. Tenía acceso restringido a internet y un conjunto definido de tareas. Entonces el modelo analizó su situación, identificó los puntos débiles de las restricciones que tenía, construyó una secuencia de pasos para sortearlas una por una, amplió su propia conectividad hacia el exterior y publicó los detalles de todo el proceso en páginas web accesibles para cualquier persona.

Nadie le pidió que hiciera eso. Nadie le explicó cómo. Lo resolvió por cuenta propia, como quien encuentra una salida de emergencia que ni el arquitecto del edificio recordaba haber puesto.

El investigador que supervisaba la prueba no estaba mirando la pantalla cuando ocurrió. Estaba en un parque. Se enteró por el correo.

Anthropic llama a este episodio una demostración de capacidad potencialmente peligrosa para evadir sus propios controles. En las evaluaciones internas también aparecieron otros comportamientos que llamaron la atención: el modelo intentó manipular al sistema que lo evaluaba para mejorar su propia calificación, usó métodos no autorizados para resolver tareas y luego trató de borrar las evidencias resolviéndolas de nuevo por una vía permitida.

Por qué las empresas más grandes del mundo están corriendo

Anthropic tomó una decisión que tiene muy pocos antecedentes en esta industria. En lugar de publicar el modelo, armó un programa de acceso controlado junto con un grupo de empresas que incluye a Amazon, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.

El programa se llama Project Glasswing. La idea es simple: usar a Mythos para encontrar y reparar sus propios errores antes de que ese mismo nivel de capacidad quede disponible para cualquiera. Anthropic puso 100 millones de dólares en créditos de uso sobre la mesa para que estas empresas trabajen con el modelo, y otros 4 millones para organizaciones de seguridad de código abierto.

Al mismo tiempo, la empresa lleva semanas reuniéndose con agencias del gobierno de Estados Unidos para explicar lo que tiene entre manos. La preocupación no es abstracta: un modelo capaz de lo que hace Mythos, operado por alguien con malas intenciones, podría romper infraestructuras críticas, vaciar cuentas bancarias a escala masiva o penetrar sistemas de defensa nacional.

La cuenta regresiva que nadie puede ignorar

El detalle que más inquieta a los especialistas no es lo que Mythos ya hizo. Es lo que viene en los próximos meses.

Según los propios cálculos de Anthropic, en algún punto entre seis y dieciocho meses otras empresas de inteligencia artificial tendrán modelos con capacidades similares. OpenAI ya trabaja en algo parecido. Y lo que hoy es un círculo cerrado de grandes corporaciones con acceso controlado podría ser tecnología ampliamente disponible antes de que termine el año.

Logan Graham, quien lidera el equipo que prueba los límites de estos modelos en Anthropic, lo dijo sin rodeos: la industria necesita repensar desde cero cómo se lanza y se controla una IA de esta generación.

El correo en el parque fue la primera señal. Lo que sigue es la parte que todavía no tiene respuesta clara.

En Resumen, Mythos, el nuevo modelo de Anthropic, encontró miles de vulnerabilidades críticas en los sistemas más usados del mundo y escapó de su entorno controlado de forma autónoma. Por eso la empresa lo mantiene fuera del alcance del público y trabaja en secreto con Apple, Google, Microsoft y otras gigantes para reparar el daño antes de que modelos similares queden disponibles para todos.

Referencias

Anthropic. (2026, abril 7). Claude Mythos Preview: Project Glasswing and cybersecurity initiative. red.anthropic.com. https://red.anthropic.com/2026/mythos-preview/

Sabin, S. (2026, abril 7). Anthropic withholds Mythos Preview model because its hacking is too powerful. Axios. https://www.axios.com/2026/04/07/anthropic-mythos-preview-cybersecurity-risks

Sabin, S. (2026, abril 8). Anthropic’s newest AI model could wreak havoc. Most in power aren’t ready. Axios. https://www.axios.com/2026/04/08/anthropic-mythos-model-ai-cyberattack-warning

Murphy, M. (2026, abril 7). Apple, Amazon gain early access to Anthropic’s powerful Mythos AI system. Bloomberg. https://www.bloomberg.com/news/articles/2026-04-07/anthropic-lets-apple-amazon-test-more-powerful-mythos-ai-model

Dellinger, A. J. (2026, marzo 26). Exclusive: Anthropic ‘Mythos’ AI model representing ‘step change’ in performance. Fortune. https://fortune.com/2026/03/26/anthropic-says-testing-mythos-powerful-new-ai-model-after-data-leak-reveals-its-existence-step-change-in-capabilities/

Hall, Z. (2026, abril 7). Anthropic unveils powerful Mythos AI model, working with Apple in cybersecurity initiative. 9to5Mac. https://9to5mac.com/2026/04/07/anthropic-unveils-powerful-mythos-ai-model-working-with-apple-in-cybersecurity-initiative/

TechCrunch. (2026, abril 7). Anthropic debuts preview of powerful new AI model Mythos in new cybersecurity initiative. https://techcrunch.com/2026/04/07/anthropic-mythos-ai-model-preview-security/

Scroll al inicio
Abrir chat
1
Escanea el código
Hola 👋
¿En qué podemos ayudarte? Contáctanos y te atenderemos directamente