Cuando los químicos orgánicos identifican un compuesto químico útil, nuevos fármacos, por ejemplo, depende de los ingenieros químicos determinar cómo producirlos en masa.
Podría haber 100 secuencias diferentes de reacciones que producen el mismo producto final. Pero algunos de ellos utilizan reactivos más baratos y temperaturas más bajas que otros, y quizás lo más importante, algunos son mucho más fáciles de ejecutar de forma continua, con los técnicos de vez en cuando rellenar los reactivos en diferentes cámaras de reacción.
Históricamente, la determinación de la manera más eficiente y rentable de producir una molécula dada ha sido tanto arte como ciencia. Pero los investigadores del MIT están tratando de poner este proceso en una base empírica más segura, con un sistema informático que está entrenado en miles de ejemplos de reacciones experimentales en los fármacos y que aprende a predecir cuáles serán las principales reacciones.
El trabajo de los investigadores aparece en la revista de la American Chemical Society, Central Science. Al igual que todos los sistemas de aprendizaje de las máquinas, los suyos presentan sus resultados en términos de probabilidades. En las pruebas, el sistema fue capaz de predecir las reacciones de varios fármacos, el producto principal de una reacción fue el 72 por ciento del tiempo; 87 por ciento del tiempo, clasificó el producto principal entre sus tres resultados más probables.
«Hay claramente mucho entendimiento acerca de las reacciones en los fármacos de hoy», dice Klavs Jensen, el profesor Warren K. Lewis de Ingeniería Química en MIT y uno de los cuatro autores principales del artículo, «pero es una habilidad altamente desarrollada, adquirida para mirar una molécula y decidir cómo se va a sintetizar a partir de los materiales que usamos como punto de partida.»
Con el nuevo trabajo, dice Jensen, «la visión es que usted será capaz de ir mediante un determinado sistema y decir, ‘Quiero hacer esta molécula.’ El software le dirá la ruta que debe hacer, y la máquina lo hará«.
Con un 72 por ciento de probabilidades de identificar el principal producto de una reacción, el sistema aún no está listo para anclar el tipo de síntesis química completamente automatizada que Jensen prevé. Pero podría ayudar a los ingenieros químicos a converger más rápidamente en la mejor secuencia de reacciones, y posiblemente sugerir secuencias que de otra manera no podrían haber investigado facilitando así las contraindicaciones en los fármacos.
Actuando a lo loco
Una sola molécula orgánica puede constar de decenas e incluso cientos de átomos. Pero una reacción entre dos moléculas de este tipo podría implicar sólo dos o tres átomos, que rompen sus enlaces químicos existentes y forman otros nuevos. Miles de reacciones entre cientos de reactivos diferentes a menudo se reducen a una única reacción compartida entre el mismo par de «sitios de reacción» cosa que puede complicarse en los fármacos.
Una molécula orgánica grande, sin embargo, podría tener múltiples sitios de reacción, y cuando se encuentra con otra molécula orgánica grande, solo una de las varias reacciones posibles entre ellos realmente tendrá lugar. Esto es lo que hace que la predicción automática de la reacción sea tan delicada. Esto muestra lo complicado que resulta fabricar los fármacos específicos para combatir una enfermedad
En el pasado, los químicos han construido modelos informáticos que caracterizan las reacciones en términos de interacciones en los sitios de reacción. Pero con frecuencia requieren la enumeración de las excepciones, que tienen que ser investigadas independientemente y codificadas a mano. El modelo podría declarar, por ejemplo, que si la molécula A tiene el sitio de reacción X y la molécula B tiene el sitio de reacción Y, entonces X e Y reaccionarán para formar el grupo Z, a menos que la molécula A también tenga sitios de reacción P, Q, R, S, T, U o V.
No es raro que un único modelo requiera más de una docena de excepciones enumeradas. Y descubrir estas excepciones en la literatura científica y sumarlas a los modelos es una laboriosa tarea que ha limitado la utilidad de los modelos.
Uno de los principales objetivos del nuevo sistema de investigadores del MIT es eludir este arduo proceso. Coley y sus colaboradores comenzaron con 15.000 reacciones empíricamente observadas reportadas en las solicitudes de patente de los Estados Unidos. Sin embargo, debido a que el sistema de aprendizaje de máquina tenía que aprender qué reacciones no ocurrirían, así como aquellas que sí lo harían, los ejemplos de reacciones exitosas no eran suficientes para la fabricación de fármacos.
Ejemplos negativos
Por lo tanto, para cada par de moléculas en una de las reacciones enumeradas, Coley también generó una batería de productos adicionales posibles, basados en los sitios de reacción de las moléculas. A continuación, aumentó las descripciones de las reacciones, junto con sus listas artificialmente ampliadas de productos posibles, a un sistema de inteligencia artificial conocido como una red neuronal, que se encargó de ordenar los posibles productos en orden de probabilidad.
A partir de esta formación, la red esencialmente aprendió una jerarquía de reacciones, qué interacciones, en qué sitios de reacción tienden a tener precedencia, sobre cuáles otra, sin la laboriosa anotación humana.
Otras características de una molécula pueden afectar su reactividad. Los átomos en un sitio de reacción dado pueden, por ejemplo, tener diferentes distribuciones de carga, dependiendo de qué otros átomos estén a su alrededor. Y la forma física de una molécula puede hacer que un sitio de reacción de difícil acceso. Así, el modelo de los investigadores del MIT también incluye medidas numéricas de ambas características.
Según Richard Robinson, investigador de tecnologías químicas de la compañía farmacéutica Novartis, el sistema de investigadores del MIT «ofrece un enfoque diferente al aprendizaje de máquinas en el campo de la síntesis dirigida, que en el futuro podría transformar la práctica del diseño experimental en moléculas dirigidas.» Así se podría crear fármacos más seguros.