Por qué las métricas de IA están rotas y qué hacer al respecto
Los benchmarks actuales de IA evalúan tareas aisladas, no el rendimiento real en equipos humanos y organizaciones complejas.
Durante décadas, la inteligencia artificial se ha evaluado comparando si las máquinas superan a los humanos en tareas específicas: ajedrez, matemáticas, programación o redacción. Este enfoque es atractivo porque permite crear rankings y generar titulares, pero tiene un problema fundamental: la IA casi nunca se usa de la forma en que se evalúa.
Según una nueva investigación que analizó implementaciones reales de IA en hospitales, ONGs y empresas en Reino Unido, Estados Unidos y Asia, existe una brecha crítica entre el rendimiento en benchmarks y la realidad. Los modelos de IA que obtienen puntuaciones impresionantes en pruebas aisladas (98% de precisión, velocidad extraordinaria) frecuentemente fallan cuando se integran en flujos de trabajo complejos.
El problema en la práctica
En hospitales californianos y londinenses, modelos de IA aprobados por la FDA que leen escáneres médicos más rápido que radiólogos expertos terminaron generando retrasos en la práctica. ¿La razón? Los benchmarks no capturan cómo se toman realmente las decisiones médicas: a través de equipos multidisciplinarios que revisan casos durante días o semanas, considerando estándares regulatorios específicos y preferencias de pacientes.
Esta desconexión crea lo que la investigadora llama el "cementerio de IA": sistemas abandonados que generan pérdidas de tiempo, esfuerzo y dinero, erosionando la confianza organizacional en la tecnología.
Una propuesta alternativa
La solución propuesta son los benchmarks HAIC (Evaluación Específica de Contexto Humano-IA), que cambian el enfoque en cuatro dimensiones clave:
1. De rendimiento individual a rendimiento de equipo: evaluar cómo la IA afecta la coordinación y deliberación en equipos humanos 2. De pruebas únicas a impactos a largo plazo: evaluación continua durante meses, como se hace con profesionales junior 3. De velocidad y precisión a resultados organizacionales: medir calidad de coordinación y detectabilidad de errores 4. De outputs aislados a efectos sistémicos: considerar consecuencias upstream y downstream
Esta propuesta es especialmente relevante para América Latina, donde muchas organizaciones están comenzando a adoptar IA sin marcos de evaluación robustos, corriendo el riesgo de implementaciones costosas y fallidas.
Fuente original: MIT Technology Review
Este resumen fue generado con asistencia de IA y revisado editorialmente por Algoré.