Las cajas negras de IA se han vuelto un poco menos misteriosas
Una de las cosas más extrañas e inquietantes de los principales sistemas de inteligencia artificial actuales es que nadie, ni siquiera las personas que los construyen, sabe realmente cómo funcionan.
Esto se debe a que los grandes modelos de lenguaje, el tipo de sistemas de inteligencia artificial que impulsan ChatGPT y otros chatbots populares, no son programados línea por línea por ingenieros humanos, como lo hacen los programas informáticos convencionales.
En cambio, estos sistemas esencialmente aprenden por sí solos, ingiriendo grandes cantidades de datos e identificando patrones y relaciones en el lenguaje, y luego usan ese conocimiento para predecir las siguientes palabras en una secuencia.
Una consecuencia de construir sistemas de IA de esta manera es que es difícil aplicarles ingeniería inversa o solucionar problemas identificando errores específicos en el código. En este momento, si un usuario escribe «¿Qué ciudad estadounidense tiene la mejor comida?» y un chatbot responde con «Tokio», no hay una manera real de entender por qué el modelo cometió ese error o por qué la siguiente persona que pregunte podría obtener una respuesta diferente.
Y cuando los grandes modelos del lenguaje se portan mal o se descarrilan, nadie puede explicar realmente por qué. (Encontré este problema el año pasado cuando un chatbot de Bing se comportó de manera incontrolable durante una interacción conmigo. Ni siquiera los altos ejecutivos de Microsoft pudieron decirme con seguridad qué salió mal).
La inescrutabilidad de los grandes modelos lingüísticos no es sólo una molestia, sino una de las principales razones por las que algunos investigadores temen que los potentes sistemas de inteligencia artificial puedan eventualmente convertirse en una amenaza para la humanidad.
Después de todo, si no podemos entender lo que sucede dentro de estos modelos, ¿cómo sabremos si pueden usarse para crear nuevas armas biológicas, difundir propaganda política o escribir códigos informáticos maliciosos para ataques cibernéticos? Si poderosos sistemas de inteligencia artificial comienzan a desobedecernos o engañarnos, ¿cómo podemos detenerlos si no podemos entender qué está causando el comportamiento en primer lugar?
Para abordar estos problemas, un pequeño subcampo de la investigación de la IA conocido como “interpretabilidad mecanicista” ha pasado años intentando examinar el interior de los modelos de lenguaje de la IA. El trabajo ha sido lento y el progreso ha sido incremental.
También ha habido una creciente resistencia a la idea de que los sistemas de IA plantean muchos riesgos. La semana pasada, dos investigadores de seguridad senior de OpenAI, el fabricante de ChatGPT, abandonaron la empresa en medio de un conflicto con los ejecutivos sobre si la empresa estaba haciendo lo suficiente para proteger sus productos.
Pero esta semana, un equipo de investigadores de la empresa de inteligencia artificial Anthropic anunció lo que llamaron un gran avance, que esperan que nos dé la oportunidad de comprender más acerca de cómo funcionan realmente los modelos de lenguaje de IA y posiblemente evitar que se vuelvan dañinos.
El equipo resumió sus hallazgos en una publicación de blog titulada «Mapas mentales de un modelo de lenguaje grande».
Los investigadores observaron uno de los modelos de inteligencia artificial de Anthropic (Claude 3 Sonnet, una versión del modelo de lenguaje Claude 3 de la compañía) y utilizaron una técnica conocida como «aprendizaje de diccionario» para descubrir patrones en cómo se combinan las neuronas, las unidades matemáticas dentro de la inteligencia artificial. modelo, se activaron cuando Claude fue invitado a hablar sobre ciertos temas. Identificaron alrededor de 10 millones de estos patrones, a los que llaman «características».
Descubrieron que una característica, por ejemplo, estaba activa cada vez que se le pedía a Claude que hablara sobre San Francisco. Otras funciones estaban activas siempre que se mencionaban temas como la inmunología o términos científicos específicos, como el elemento químico litio. Y algunas características estaban vinculadas a conceptos más abstractos, como el engaño o el sesgo de género.
También descubrieron que activar o desactivar manualmente ciertas funciones podría cambiar el comportamiento del sistema de inteligencia artificial o incluso hacer que el sistema rompa sus propias reglas.
Por ejemplo, descubrieron que si forzaban a activar con más fuerza una característica vinculada al concepto de servilismo, Claude respondía con elogios floridos y exagerados hacia el usuario, incluso en situaciones en las que los halagos eran inapropiados.
Chris Olah, quien dirigió el equipo de investigación de interpretabilidad antrópica, dijo en una entrevista que estos hallazgos podrían permitir a las empresas de inteligencia artificial controlar sus modelos de manera más efectiva.
«Estamos descubriendo características que podrían arrojar luz sobre las preocupaciones sobre el sesgo, los riesgos de seguridad y la autonomía», afirmó. «Estoy realmente entusiasmado de que podamos convertir estos temas controvertidos sobre los que la gente discute en cosas sobre las que realmente podamos tener una conversación más productiva».
Otros investigadores han encontrado fenómenos similares en modelos lingüísticos de tamaño pequeño y mediano. Pero el equipo de Anthropic está entre los primeros en aplicar estas técnicas a un modelo a escala real.
Jacob Andreas, profesor asociado de informática en el MIT, que revisó un resumen de la investigación de Anthropic, lo calificó como una señal esperanzadora de que la interpretabilidad a gran escala podría ser posible.
“De la misma manera que comprender aspectos fundamentales de cómo trabajan las personas nos ha ayudado a curar enfermedades, comprender cómo funcionan estos modelos nos permitirá reconocer cuándo las cosas están a punto de ir mal y construir mejores herramientas para controlarlas”, ha declarado.
Olah, líder en investigación antropogénica, advirtió que si bien los nuevos hallazgos representan avances importantes, la interpretabilidad de la inteligencia artificial aún está lejos de ser un problema resuelto.
Para empezar, dijo, los modelos de IA más grandes probablemente contienen miles de millones de características que representan conceptos distintos, muchas más que los aproximadamente 10 millones de características que el equipo de Anthropic afirma haber descubierto. Encontrarlos a todos requeriría enormes cantidades de potencia informática y sería demasiado costoso para todas, excepto para las empresas de IA más ricas.
Incluso si los investigadores identificaran cada característica de un modelo de IA grande, aún necesitarían más información para comprender todo el funcionamiento interno del modelo. Además, no hay garantía de que las empresas de IA tomen medidas para hacer que sus sistemas sean más seguros.
Sin embargo, dijo Olah, incluso abrir un poco estas cajas negras de IA podría permitir que las empresas, los reguladores y el público en general se sientan más seguros de que estos sistemas pueden controlarse.
“Hay muchos más desafíos por delante, pero lo que parecía más aterrador ya no parece un obstáculo”, dijo.