Safety y RiesgosNoticia

Por qué las métricas de IA están rotas y qué hacer al respecto

Los benchmarks actuales de IA evalúan tareas aisladas, no el rendimiento real en equipos humanos y organizaciones complejas.

MIT Technology Review31 de marzo de 20263 min de lectura· Generado con IA

Durante décadas, la inteligencia artificial se ha evaluado comparando si las máquinas superan a los humanos en tareas específicas: ajedrez, matemáticas, programación o redacción. Este enfoque es atractivo porque permite crear rankings y generar titulares, pero tiene un problema fundamental: la IA casi nunca se usa de la forma en que se evalúa.

Según una nueva investigación que analizó implementaciones reales de IA en hospitales, ONGs y empresas en Reino Unido, Estados Unidos y Asia, existe una brecha crítica entre el rendimiento en benchmarks y la realidad. Los modelos de IA que obtienen puntuaciones impresionantes en pruebas aisladas (98% de precisión, velocidad extraordinaria) frecuentemente fallan cuando se integran en flujos de trabajo complejos.

El problema en la práctica

En hospitales californianos y londinenses, modelos de IA aprobados por la FDA que leen escáneres médicos más rápido que radiólogos expertos terminaron generando retrasos en la práctica. ¿La razón? Los benchmarks no capturan cómo se toman realmente las decisiones médicas: a través de equipos multidisciplinarios que revisan casos durante días o semanas, considerando estándares regulatorios específicos y preferencias de pacientes.

Esta desconexión crea lo que la investigadora llama el "cementerio de IA": sistemas abandonados que generan pérdidas de tiempo, esfuerzo y dinero, erosionando la confianza organizacional en la tecnología.

Una propuesta alternativa

La solución propuesta son los benchmarks HAIC (Evaluación Específica de Contexto Humano-IA), que cambian el enfoque en cuatro dimensiones clave:

1. De rendimiento individual a rendimiento de equipo: evaluar cómo la IA afecta la coordinación y deliberación en equipos humanos 2. De pruebas únicas a impactos a largo plazo: evaluación continua durante meses, como se hace con profesionales junior 3. De velocidad y precisión a resultados organizacionales: medir calidad de coordinación y detectabilidad de errores 4. De outputs aislados a efectos sistémicos: considerar consecuencias upstream y downstream

Esta propuesta es especialmente relevante para América Latina, donde muchas organizaciones están comenzando a adoptar IA sin marcos de evaluación robustos, corriendo el riesgo de implementaciones costosas y fallidas.

Fuente original: MIT Technology Review

Este resumen fue generado con asistencia de IA y revisado editorialmente por Algoré.

Por qué las métricas de IA están rotas y qué hacer al respecto

El problema en la práctica

Una propuesta alternativa

También en Safety y Riesgos