Una plataforma de inteligencia artificial desarrollada por Microsoft afirma diagnosticar enfermedades con un 85,5% de precisión, cuatro veces más que médicos humanos.
El sistema, llamado AI Diagnostic Orchestrator, no solo analiza datos clínicos, sino que simula un debate entre agentes virtuales que razonan como médicos reales.
Este avance despierta preguntas inquietantes: ¿será la IA el nuevo oráculo de la medicina? ¿O apenas otro actor en un escenario donde el juicio humano sigue siendo imprescindible?
“Los modelos de IA se están volviendo dramáticamente mejores que los humanos”
Por: Gabriel E. Levy B.
Los errores de diagnóstico son una de las principales causas de muertes prevenibles en los sistemas de salud.
Según un estudio publicado en BMJ Quality & Safety, alrededor del 5% de los adultos en Estados Unidos recibe un diagnóstico médico erróneo cada año, lo que equivale a 12 millones de personas.
De ellos, un tercio sufre consecuencias graves. En este contexto, el interés por incorporar tecnologías de inteligencia artificial (IA) no es un capricho futurista, sino una necesidad concreta.
Microsoft, una de las empresas más activas en la carrera por liderar la IA, presentó su propuesta para cambiar el rumbo del diagnóstico médico: el AI Diagnostic Orchestrator (MAI-DxO).
Este sistema fue desarrollado por Mustafa Suleyman, cofundador de DeepMind y actual director del área de inteligencia artificial de Microsoft.
La propuesta consiste en reunir varios modelos de lenguaje, específicamente, cinco agentes de IA, para analizar conjuntamente casos clínicos y alcanzar un diagnóstico consensuado.
A diferencia de herramientas anteriores, que trabajaban de forma unidireccional, este modelo introduce el debate y la contradicción entre algoritmos.
El ensayo se llevó a cabo con 304 casos reales extraídos del New England Journal of Medicine, una de las publicaciones más prestigiosas del ámbito científico. La IA obtuvo un 85,5% de precisión en sus diagnósticos, especialmente al usar el modelo GPT-4 de OpenAI.
En contraste, un grupo de médicos humanos, privados de recursos complementarios habituales como bases de datos o imágenes, solo acertó en el 20% de los casos. Aunque el diseño del experimento suscitó algunas críticas, la diferencia de rendimiento fue demasiado amplia como para ignorarla.
“El futuro no depende del modelo, sino del orquestador”
La clave del sistema MAI-DxO no reside únicamente en el uso de grandes modelos de lenguaje (LLM, por sus siglas en inglés), sino en su diseño colaborativo.
Como explicó Suleyman al Financial Times, “los modelos de IA tienden a volverse productos básicos; lo que realmente marca la diferencia es el valor agregado del orquestador”.
Esta afirmación resume el enfoque que Microsoft quiere instalar en la medicina del futuro: no se trata solo de contar con una IA poderosa, sino de organizarla como una sinfonía de razonamientos clínicos diversos.
Desde un punto de vista técnico, los LLM como GPT-4 son capaces de interpretar síntomas, comparar antecedentes y generar hipótesis diagnósticas con una velocidad imposible para los humanos. Pero el verdadero salto cualitativo del sistema de Microsoft está en permitir que estos agentes se confronten entre sí, como si fueran especialistas en una junta médica.
Esto reduce el sesgo individual de un solo modelo y simula una deliberación más rica, más parecida al pensamiento clínico en equipo.
Por ahora, la compañía no ha anunciado una aplicación comercial concreta, pero se especula que podría integrarse a plataformas como Bing o Copilot, las interfaces conversacionales de Microsoft.
Esto abriría la puerta a una IA accesible para profesionales y pacientes por igual, aunque también despertaría dilemas éticos y regulatorios aún no resueltos.
¿Quién es responsable si el diagnóstico automatizado es erróneo?
¿Cómo se asegura la privacidad de los datos clínicos?
¿Qué pasa con la relación médico-paciente?
Además del rendimiento, el sistema apunta a un objetivo económico de fondo: reducir el despilfarro del sistema sanitario.
En Estados Unidos, alrededor del 25% del gasto en salud, más de 800.000 millones de dólares anuales, corresponde a procedimientos innecesarios o mal indicados.
Si una IA pudiera mejorar la precisión diagnóstica, podría también optimizar la distribución de recursos y evitar intervenciones médicas que no benefician al paciente.
“Más rápidos, más baratos y cuatro veces más precisos”
La afirmación más provocadora de Suleyman, la IA es “cuatro veces más precisa que los humanos”, desató una ola de reacciones en el ámbito médico. Algunos la consideran un síntoma de arrogancia tecnológica; otros la ven como una oportunidad para repensar el rol del profesional de la salud en la era digital.
En cualquier caso, la comparación es ineludible.
Desde hace años, autores como Eric Topol, médico cardiólogo y autor de Deep Medicine, sostienen que la medicina se encuentra en una encrucijada entre el humanismo y la automatización.
Para él, el futuro ideal no es uno en el que las máquinas reemplacen a los médicos, sino en el que los liberen de tareas repetitivas y los devuelvan al contacto humano. “No necesitamos que la IA nos sustituya, necesitamos que nos permita ser más humanos”, escribió en 2019.
David Sontag, investigador del MIT y especialista en ciencia de datos aplicados a la medicina, ofreció una crítica más pragmática: los médicos que participaron del estudio no contaron con las herramientas que normalmente usarían en la práctica diaria.
Esto, a su juicio, distorsiona la comparación y reduce la validez externa de los resultados.
Sin embargo, reconoció que el nivel de exigencia clínica del test fue superior al de otros ensayos similares.
Otro punto para considerar es el riesgo de confianza ciega en los modelos. Tal como advirtió la socióloga Shoshana Zuboff, autora de The Age of Surveillance Capitalism, las decisiones automatizadas no están exentas de sesgos ni errores, y cuanto más opaco sea el funcionamiento del sistema, mayor será el riesgo de dependencia acrítica.
En medicina, donde una interpretación incorrecta puede costar vidas, esta advertencia se vuelve crucial.
Casos que ilustran la promesa… y el dilema
En 2023, el hospital universitario de Stanford probó un sistema de IA similar al de Microsoft en su servicio de urgencias.
La herramienta logró diagnosticar apendicitis aguda con un 91% de precisión, frente al 75% de los médicos residentes.
La implementación permitió reducir el tiempo medio de atención de 3,5 horas a 2 horas, según datos internos del centro.
Sin embargo, también se reportaron casos en los que la IA sugirió diagnósticos erróneos, como confundir una pancreatitis con una infección urinaria complicada.
En China, el hospital Ruijin de Shanghái implementó un asistente médico virtual basado en LLM para la detección temprana de enfermedades pulmonares.
El sistema, integrado con imágenes de tomografía y datos clínicos, identificó lesiones precancerosas con una tasa de sensibilidad superior al 88%.
Esto permitió intervenir antes en varios pacientes, evitando progresiones fatales.
No obstante, el modelo presentó un rendimiento inferior cuando se aplicó en otras regiones del país, con distinto perfil genético y epidemiológico.
También en Brasil, un proyecto piloto del Ministerio de Salud utilizó un modelo conversacional de IA para asistir a médicos rurales en diagnósticos básicos.
En zonas donde hay un solo médico por cada 10.000 habitantes, la herramienta ofreció una mejora notable en tiempos de respuesta.
Pero un informe del Observatorio de Salud Pública advirtió que la calidad de las recomendaciones disminuía significativamente cuando la conexión a internet era inestable, lo que evidencia la fragilidad de la infraestructura.
Estos casos muestran que el éxito de la inteligencia artificial en medicina no depende solo del modelo, sino del ecosistema que lo rodea: conectividad, capacitación, regulación, cultura clínica.
Y sobre todo, de cómo se articula la colaboración entre humanos y máquinas.
En conclusión
La promesa de una IA capaz de diagnosticar mejor que un médico ya no es ciencia ficción. Sin embargo, su impacto real dependerá de algo más que cifras de precisión: será necesario diseñar entornos donde la tecnología potencie, en lugar de suplantar, el juicio clínico.
La medicina del futuro no será ni completamente humana ni completamente artificial, sino una alianza entre lo mejor de ambos mundos.