La inteligencia artificial genera explicaciones legibles del cerebro humano con el método 'generative causal testing'

Un sistema de inteligencia artificial ha logrado explicar con frases sencillas qué concepto —comida, ubicaciones, diálogo— activa cada región del cerebro humano y después ha comprobado esas explicaciones en un escáner de resonancia magnética. El método, bautizado como generative causal testing (GCT), lo acaba de presentar un equipo de Microsoft Research junto a las universidades de California en Berkeley, San Francisco y Columbia. El estudio ha sido aceptado en Nature Neuroscience.

Durante años, los grandes modelos de lenguaje (LLM) han sido las herramientas más precisas para predecir cómo responde el cerebro humano al lenguaje. Sin embargo, esos modelos son cajas negras: millones de parámetros que nadie puede traducir directamente en interpretaciones. Sabíamos que una región cerebral se activaba al oír historias, pero no qué aspecto concreto del lenguaje la encendía. El GCT viene a cerrar esa brecha entre predicción y comprensión.

El problema de las cajas negras en la neurociencia del lenguaje

Esa desconexión entre predicción y comprensión se ha vuelto uno de los problemas centrales de la neurociencia computacional. Los LLM pueden anticipar la actividad de parches minúsculos de corteza con una fidelidad asombrosa, pero explicar qué fenómeno lingüístico dispara cada región sigue siendo un desafío. GCT propone justamente lo contrario: extraer de esos modelos opacos frases cortas que cualquier científico pueda leer y luego comprobar si son ciertas.

GCT: traducir, verificar y diferenciar

El método opera en dos tiempos. Primero, a partir de un modelo predictivo para una región concreta, un LLM extrae las frases que más fuertemente disparan su actividad y las resume en una explicación verbal concisa, como “preparación de alimentos” o “nombres de lugares”. En la segunda fase, otro LLM escribe historias nuevas diseñadas específicamente para activar esa región. Tres voluntarios volvieron al escáner para escuchar esas narraciones sintéticas. Si la región se encendía con los párrafos dirigidos a ella, la explicación pasaba una prueba causal genuina, no meramente correlacional.

Los resultados fueron contundentes. En los tres sujetos, las historias sintéticas activaron de forma fiable las regiones esperadas, y la confiabilidad de las explicaciones era mayor allí donde los modelos cerebrales subyacentes eran más estables. Además, GCT mostró la suficiente agudeza como para distinguir tres regiones vecinas del cerebro que procesan lugares y que hasta ahora se consideraban funcionalmente casi idénticas: la corteza retroesplenial (RSC), la región parahipocampal de los lugares (PPA) y el área occipital de los lugares (OPA). Al generar estímulos diferenciales —historias pensadas para encender una región mientras mantenían apagadas las demás—, el método reveló que la RSC responde más intensamente a nombres propios de lugares, como Tokio o Connecticut, que a ubicaciones genéricas. Una sutileza que ningún modelo predictivo sin ayuda podría haber destilado.

GCT transformó modelos que nadie podía leer en frases que cualquiera puede entender y poner a prueba en un escáner.

Pero lo verdaderamente nuevo surgió cuando el equipo rastreó la corteza prefrontal en busca de “microregiones”. Al barrer una cuadrícula de puntos y conservar solo los más estables, GCT destapó regiones diminutas sintonizadas con conceptos sorprendentemente específicos: una se activa con el diálogo entre personas (palabras como “dijo” o “contó”), otra con menciones a la hora del reloj (“la una en punto”) y una tercera con mediciones numéricas (“50 pies”). Son distinciones que nadie había ido a buscar; aparecieron porque el método pudo proponer una hipótesis y verificarla de inmediato.

Lo que este avance significa para la ciencia

El alcance de GCT va mucho más allá de la neurociencia. En cualquier disciplina donde un modelo predictivo funcione pero resulte indescifrable —desde la genómica hasta la climatología—, el mismo ciclo de generar-hipótesis-y-verificar podría aplicarse. “La lección de fondo es esperanzadora”, escriben los autores: la expansión de los modelos de caja negra no tiene por qué significar el retroceso de las teorías legibles. Con el marco adecuado, ambos pueden progresar a la vez.

Para el mapeo cerebral, GCT señala un camino más rápido e hipotético: un sistema de IA propone qué codifica una región, un experimento de circuito cerrado lo confirma o lo descarta en un solo estudio, y así se va dibujando el atlas funcional. Aun así, el propio método depende de la calidad de los modelos predictivos originales; donde estos flaquean, las explicaciones heredan esa debilidad. La reproducibilidad en cohortes más amplias también queda pendiente.

Lo que ya es un hecho es que por primera vez la inteligencia artificial no solo predice lo que hará el cerebro, sino que lo explica en un lenguaje que los científicos pueden discutir, corregir y ampliar. Casi como si de repente aquella caja negra hubiera empezado a hablar.

🔬 Ficha del Descubrimiento

Qué se ha descubierto: Un método que destila las predicciones de una IA sobre la actividad cerebral en explicaciones verbales breves y luego las verifica causalmente en un escáner.
Dónde: Laboratorios de Microsoft Research y las universidades de California en Berkeley, San Francisco y Columbia (EE. UU.).
Institución responsable: Microsoft Research, UC Berkeley, UC San Francisco y Columbia University.
Cuándo: Estudio aceptado en Nature Neuroscience en 2026.
Impacto a futuro: Acelera el mapeo funcional del cerebro y demuestra que los modelos opacos de IA pueden traducirse en teorías científicas comprobables, un principio aplicable a otras disciplinas.

La inteligencia artificial genera explicaciones legibles del cerebro humano con el método ‘generative causal testing’

El problema de las cajas negras en la neurociencia del lenguaje

GCT: traducir, verificar y diferenciar

Lo que este avance significa para la ciencia

🔬 Ficha del Descubrimiento