Seguridad AlgorítmicaNoticia

Startup lanza herramienta para debugear y controlar modelos de IA

Goodfire presenta Silico, una plataforma que permite inspeccionar el interior de los LLMs y ajustar su comportamiento durante el entrenamiento.

MIT Technology Review1 de mayo de 20263 min de lectura· Generado con IA

La startup estadounidense Goodfire acaba de lanzar Silico, una herramienta revolucionaria que permite a investigadores e ingenieros inspeccionar el interior de los modelos de IA y ajustar sus parámetros durante el entrenamiento. Esta tecnología podría transformar el desarrollo de IA de un proceso de prueba y error a una ingeniería de precisión.

El problema de la caja negra

Aunque modelos como ChatGPT y Gemini pueden realizar tareas sorprendentes, nadie sabe exactamente cómo o por qué funcionan. Esta falta de transparencia dificulta corregir sus fallas o prevenir comportamientos no deseados. "Vimos una brecha creciente entre qué tan bien se entendían los modelos y qué tan ampliamente se estaban desplegando", explica Eric Ho, CEO de Goodfire.

Interpretabilidad mecanística en acción

Silico utiliza técnicas de interpretabilidad mecanística para mapear neuronas individuales y las conexiones entre ellas. La herramienta permite identificar qué neuronas específicas controlan ciertos comportamientos y ajustarlas en consecuencia.

Por ejemplo, los investigadores encontraron que ciertos modelos responden incorrectamente que 9.11 es mayor que 9.9 porque están influenciados por neuronas asociadas con versículos bíblicos o repositorios de código. Con esta información, pueden reentrenar el modelo para evitar estas asociaciones erróneas.

Democratizando el control de IA

La plataforma automatiza gran parte del trabajo complejo utilizando agentes de IA, haciendo accesibles técnicas que antes solo estaban disponibles para grandes laboratorios como Anthropic, OpenAI y Google DeepMind.

Para América Latina, esta democratización es especialmente relevante. Permitiría a empresas y equipos de investigación regionales desarrollar modelos adaptados a contextos locales sin necesidad de grandes equipos de interpretabilidad, potencialmente reduciendo la dependencia de soluciones desarrolladas en otros mercados.

Fuente original: MIT Technology Review

Este resumen fue generado con asistencia de IA y revisado editorialmente por Algoré.

Startup lanza herramienta para debugear y controlar modelos de IA

El problema de la caja negra

Interpretabilidad mecanística en acción

Democratizando el control de IA

También en Seguridad Algorítmica