saeeg.org

INTELIGENCIA ARTIFICIAL Y AVANCES EN QUÍMICA (I)

Giancarlo Elia Valori*

Con el advenimiento de la tecnología de Inteligencia Artificial en el campo de la química, los métodos tradicionales basados en experimentos y modelos físicos se están complementando gradualmente con paradigmas de aprendizaje automático basados en datos. Cada vez se desarrollan más representaciones de datos para el procesamiento informático, que se adaptan constantemente a modelos estadísticos que son principalmente generativos.

Aunque la ingeniería, las finanzas y los negocios se beneficiarán enormemente de los nuevos algoritmos, las ventajas no provienen solo de los algoritmos. La computación a gran escala ha sido una parte integral de las herramientas de la ciencia física durante décadas, y algunos avances recientes en Inteligencia Artificial han comenzado a cambiar la forma en que se realizan los descubrimientos científicos.

Existe un gran entusiasmo por los logros destacados en ciencias físicas, como el uso del aprendizaje automático para reproducir imágenes de agujeros negros o la contribución de AlphaFold, un programa de IA desarrollado por DeepMind (Alphabet / Google) para predecir la estructura 3D de las proteínas.

Uno de los principales objetivos de la química es comprender la materia, sus propiedades y los cambios que puede sufrir. Por ejemplo, cuando buscamos nuevos superconductores, vacunas o cualquier otro material con las propiedades que deseamos, recurrimos a la química.

Tradicionalmente pensamos que la química se practica en laboratorios con tubos de ensayo, matraces Erlenmeyer (generalmente recipientes graduados con un fondo plano, un cuerpo cónico y un cuello cilíndrico) y quemadores de gas. En los últimos años, sin embargo, también se ha beneficiado de los desarrollos en los campos de la informática y la mecánica cuántica, los cuales se hicieron importantes a mediados del siglo XX. Las primeras aplicaciones incluyeron el uso de computadoras para resolver cálculos de fórmulas basadas en la física, o simulaciones de sistemas químicos (aunque lejos de ser perfectos) combinando química teórica con programación informática. Ese trabajo finalmente se convirtió en el subgrupo ahora conocido como química computacional. Este campo comenzó a desarrollarse en la década de 1970 y los Premios Nobel de química fueron otorgados en 1998 al británico John A. Pople (por su desarrollo de métodos computacionales en química cuántica: el método Pariser-Parr-Pople), y en 2013 al austriaco Martin Karplus, al sudafricano Michael Levitt y a Arieh Warshel de Israel por el desarrollo de modelos multiescala para sistemas químicos complejos.

De hecho, aunque la química computacional ha ganado cada vez más reconocimiento en las últimas décadas, es mucho menos importante que los experimentos de laboratorio, que son la piedra angular del descubrimiento.

Sin embargo, teniendo en cuenta los avances actuales en Inteligencia Artificial, las tecnologías centradas en los datos y las cantidades cada vez mayores de datos, podemos estar presenciando un cambio en el que los métodos computacionales se utilizan no solo para ayudar a los experimentos de laboratorio, sino también para guiarlos y orientarlos

De ahí que ¿cómo logra la Inteligencia Artificial esta transformación? Un desarrollo particular es la aplicación del aprendizaje automático al descubrimiento de materiales y al diseño molecular, que son dos problemas fundamentales en química.

En los métodos tradicionales, el diseño de moléculas se divide aproximadamente en varias etapas. Es importante tener en cuenta que cada etapa puede tomar varios años y muchos recursos, y el éxito no está garantizado de ninguna manera. Las fases del descubrimiento químico son las siguientes: síntesis, aislamiento y pruebas, validación, aprobación, comercialización y comercialización.

La fase de descubrimiento se basa en marcos teóricos desarrollados durante siglos para guiar y orientar el diseño molecular. Sin embargo, al buscar materiales «útiles» (por ejemplo, gel de petróleo [vaselina], politetrafluoroetileno [teflón], penicilina, etc.), debemos recordar que muchos de ellos provienen de compuestos que se encuentran comúnmente en la naturaleza. Además, la utilidad de estos compuestos a menudo se descubre solo en una etapa posterior. Por el contrario, la investigación dirigida es una tarea que consume más tiempo y recursos (e incluso en este caso puede ser necesario utilizar compuestos «útiles» conocidos como punto de partida). Solo para darle una idea, ¡el espacio químico farmacológicamente activo (es decir, el número de moléculas) se ha estimado en 1060! Incluso antes de las fases de prueba y dimensionamiento, la investigación manual en un espacio de este tipo puede llevar mucho tiempo y consumir muchos recursos. Por lo tanto, ¿cómo puede la Inteligencia Artificial entrar en esto y acelerar el descubrimiento de la sustancia química?

En primer lugar, el aprendizaje automático mejora los métodos existentes de simulación de entornos químicos. Ya hemos mencionado que la química computacional permite evitar parcialmente los experimentos de laboratorio. Sin embargo, los cálculos de química computacional que simulan procesos mecánicos cuánticos son pobres tanto en términos de costo computacional como de precisión de simulaciones químicas.

Un problema central en química computacional es resolver la ecuación de 1926 del físico Erwin Schrödinger (1887-1961). El científico describió el comportamiento de un electrón que orbita el núcleo como el de una onda estacionaria. Por lo tanto, propuso una ecuación, llamada ecuación de onda, con la que representar la onda asociada con el electrón. En este sentido, la ecuación es para moléculas complejas, es decir, dadas las posiciones de un conjunto de núcleos y el número total de electrones, se deben calcular las propiedades de interés. Las soluciones exactas solo son posibles para sistemas de un solo electrón, mientras que para otros sistemas debemos confiar en aproximaciones «suficientemente buenas». Además, muchos métodos comunes para aproximar la ecuación de Schrödinger se escalan exponencialmente, lo que dificulta la resolución de soluciones forzadas. Con el tiempo, se han desarrollado muchos métodos para acelerar los cálculos sin sacrificar demasiado la precisión. Sin embargo, incluso algunos métodos «más baratos» pueden causar cuellos de botella computacionales.

Una forma en que la Inteligencia Artificial puede acelerar estos cálculos es combinándolos con el aprendizaje automático. Otro enfoque ignora completamente el modelado de procesos físicos mediante el mapeo directo de representaciones moleculares en las propiedades deseadas. Ambos métodos permiten a los químicos examinar de manera más eficiente las bases de datos para diversas propiedades, como la carga nuclear, la energía de ionización, etc.

Si bien los cálculos más rápidos son una mejora, no resuelven el problema de que todavía estamos confinados a compuestos conocidos, que representan solo una pequeña parte del espacio químico activo. Todavía tenemos que especificar manualmente las moléculas que queremos analizar. ¿Cómo podemos revertir este paradigma y diseñar un algoritmo para buscar en el espacio químico y encontrar sustancias candidatas adecuadas? La respuesta puede estar en la aplicación de modelos generativos a problemas de descubrimiento molecular.

Pero antes de abordar este tema, vale la pena hablar sobre cómo representar numéricamente las estructuras químicas (y qué se puede usar para el modelado generativo). Muchas representaciones se han desarrollado en las últimas décadas, la mayoría de las cuales caen en una de las siguientes cuatro categorías: cadenas, archivos de texto, matrices y gráficos.

Las estructuras químicas obviamente se pueden representar como matrices. Las representaciones matriciales de moléculas se utilizaron inicialmente para facilitar las búsquedas en bases de datos químicas. A principios de la década de 2000, sin embargo, se introdujo una nueva representación matricial llamada Extended Connectivity Fingerprint (ECFP). En informática, la huella digital o huella digital de un archivo es una secuencia alfanumérica o cadena de bits de una longitud fija que identifica ese archivo con las características intrínsecas del propio archivo. El ECFP fue diseñado específicamente para capturar características relacionadas con la actividad molecular y a menudo se considera una de las primeras caracterizaciones en los intentos de predecir las propiedades moleculares.

La información de la estructura química también se puede transferir a un archivo de texto, una salida común de los cálculos de química cuántica. Estos archivos de texto pueden contener información muy rica, pero generalmente no son muy útiles como entrada para modelos de aprendizaje automático. Por otro lado, la representación de cadenas codifica mucha información en su sintaxis. Esto los hace particularmente adecuados para el modelado generativo, al igual que la generación de texto. Finalmente, la representación basada en gráficos es más natural. No solo nos permite codificar propiedades específicas del átomo en las incrustaciones de nodos, sino que también captura enlaces químicos en las incrustaciones de borde. Además, cuando se combina con el intercambio de mensajes, la representación basada en gráficos nos permite interpretar (y configurar) la influencia de un nodo en otro nodo por sus vecinos, lo que refleja la forma en que los átomos en una estructura química interactúan entre sí. Estas propiedades hacen que las representaciones basadas en gráficos sean el tipo preferido de representación de entrada para modelos de aprendizaje profundo. (1. continuará)

^*Copresidente del Consejo Asesor Honoris Causa. El Profesor Giancarlo Elia Valori es un eminente economista y empresario italiano. Posee prestigiosas distinciones académicas y órdenes nacionales. Ha dado conferencias sobre asuntos internacionales y economía en las principales universidades del mundo, como la Universidad de Pekín, la Universidad Hebrea de Jerusalén y la Universidad Yeshiva de Nueva York. Actualmente preside el «International World Group», es también presidente honorario de Huawei Italia, asesor económico del gigante chino HNA Group y miembro de la Junta de Ayan-Holding. En 1992 fue nombrado Oficial de la Legión de Honor de la República Francesa, con esta motivación: “Un hombre que puede ver a través de las fronteras para entender el mundo” y en 2002 recibió el título de “Honorable” de la Academia de Ciencias del Instituto de Francia.

Traducido al español por el Equipo de la SAEEG con expresa autorización del autor. Prohibida su reproducción.

SAEEG