saeeg.org

INTELIGENCIA ARTIFICIAL Y AVANCES EN QUÍMICA (II)

Giancarlo Elia Valori*

Fuente: https://numerentur.org/markov-mdp/

Como se ha visto anteriormente, los tipos de representación química han desarrollado varios subtipos en los últimos años. Desafortunadamente, sin embargo, no hay una respuesta clara sobre qué representación es la más eficiente para un problema en particular. Por ejemplo, las representaciones matriciales son a menudo la primera opción para la predicción de atributos, pero, en los últimos años, los gráficos también han surgido como alternativas fuertes. También es importante tener en cuenta que podemos combinar varios tipos de representaciones dependiendo del problema.

Por lo tanto, ¿cómo (y cuáles) representaciones se pueden usar para explorar el espacio químico? Ya hemos dicho que las representaciones de cuerdas son adecuadas para el modelado generativo. Inicialmente, las representaciones gráficas no eran fáciles de modelar mediante el uso de modelos generativos, pero más recientemente su combinación con el Variational Autoencoder (VAE) las ha convertido en un factor muy atractivo.

En el aprendizaje automático, un autoencoder variacional es una arquitectura de red neuronal artificial introducida por Diederik P. Kingma y Max Welling. Es parte de las familias de modelos gráficos probabilísticos y métodos bayesianos variacionales (es decir, familia de métodos para la aproximación de integrales).

Los VAE han demostrado ser particularmente útiles ya que nos permiten tener una representación continua más legible por máquina. Un estudio utilizó VAE para demostrar que tanto las representaciones de cadenas como las de gráficos pueden codificarse y decodificarse en un espacio donde las moléculas ya no son discretas, sino que pueden decodificarse en vectores continuos con valores reales de representaciones de moléculas. La distancia euclidiana entre diferentes vectores corresponderá a la similitud química. Se agrega otro modelo entre el codificador y el decodificador para predecir el atributo que se alcanzará en cualquier punto del espacio.

Pero si bien generar moléculas per se es una tarea simple, podemos tomar cualquier modelo generativo y aplicarlo a la representación que deseamos, generar estructuras que sean químicamente válidas y muestren las propiedades que deseamos es un tema mucho más desafiante.

Los enfoques iniciales para lograr este objetivo implican modelos sobre conjuntos de datos existentes y su posterior uso para la transferencia al aprendizaje. El modelo se ajusta a través de un conjunto de datos de calibración para permitir la generación de estructuras orientadas hacia propiedades específicas, que luego se pueden calibrar aún más utilizando varios algoritmos. Muchos ejemplos de esto implican el uso de representaciones de cadenas o gráficos. Sin embargo, se encuentran dificultades con respecto a la validez química o las propiedades deseadas cuando éstas no se obtienen con éxito. Además, el hecho de confiar en conjuntos de datos limita el espacio de búsqueda e introduce sesgos potencialmente indeseables.

Un intento de mejora es utilizar el Proceso de Decisión de Markov (MDP) para garantizar la validez de las estructuras químicas y optimizar el MDP para lograr las propiedades deseadas a través del Q-learning profundo (un algoritmo de aprendizaje por refuerzo sin modelo para derivar el valor de una acción en un estado particular). En matemáticas, un MDP es un proceso de control estocástico de tiempo discreto (una función o señal, con valores dados en un conjunto elegido de tiempos en el dominio entero). Proporciona un marco matemático para modelar el proceso de toma de decisiones en situaciones donde los resultados son en parte aleatorios y en parte bajo el control de un tomador de decisiones. Los MDP son útiles para estudiar problemas de optimización resueltos mediante programación. Se utilizan en muchas disciplinas, incluyendo robótica, control automático, economía y fabricación. El MDP lleva el nombre del matemático ruso Andrej Andreevič Markov (1856 -1922).

Una ventaja particular de este modelo es que permite a los usuarios visualizar la preferencia de diferentes acciones: (a) visualizar el grado de preferencia para ciertas acciones (1 es la preferencia más alta, 0 la menos preferida); y (b) tomar medidas para maximizar la estimación cuantitativa de la similitud del fármaco con la molécula de partida.

Aunque todavía está en su infancia, el uso de la Inteligencia Artificial para explorar el espacio químico ya está mostrando una gran promesa. Nos proporciona un nuevo paradigma para explorar el espacio químico y una nueva forma de probar teorías e hipótesis. Aunque el empirismo no es tan preciso como la investigación experimental, los métodos basados en la computación seguirán siendo un área de investigación activa en el futuro previsible y ya formarán parte de cualquier grupo de investigación.

Hasta ahora hemos visto cómo la Inteligencia Artificial puede ayudar a descubrir nuevos productos químicos más rápidamente mediante la explotación de algoritmos generativos para buscar en el espacio químico. Aunque este es uno de los casos de uso más destacables, también hay otros. La Inteligencia Artificial se está aplicando a muchos otros problemas en química, incluyendo:

Trabajo automatizado en laboratorio. Las técnicas de aprendizaje automático se pueden utilizar para acelerar los flujos de trabajo de síntesis. Un enfoque utiliza laboratorios autónomos para automatizar las tareas rutinarias, optimizar el gasto de recursos y ahorrar tiempo. Un ejemplo relativamente nuevo pero notable es el uso de la plataforma robótica Ada para automatizar la síntesis, el procesamiento y la caracterización de materiales. Las herramientas de Ada se desarrollan para proporcionar predicciones y modelos para automatizar procesos repetitivos, utilizando tecnologías de aprendizaje automático e inteligencia artificial para recopilar, comprender y procesar datos, de modo que los recursos puedan dedicarse a actividades de mayor valor agregado. Ada es básicamente un laboratorio que descubre y desarrolla nuevos materiales orgánicos de película delgada sin supervisión humana. Su productividad está haciendo que la mayoría de los recién graduados se sientan incómodos. Todo el ciclo de fabricación de película delgada, desde la mezcla de precursores químicos, pasando por la deposición y el recocido térmico, hasta la caracterización eléctrica y óptica final, toma solo veinte minutos. Una ayuda adicional es el uso de un robot químico móvil que puede operar herramientas y realizar mediciones en 688 experimentos durante ocho días..

Predicción de reacciones químicas. Los modelos de clasificación se pueden usar para predecir el tipo de reacción que ocurrirá, o simplificar el problema y predecir si ocurrirá una determinada reacción química..
Minería de datos químicos. La química, como muchas otras disciplinas, tiene una extensa literatura científica para el estudio de tendencias y correlaciones. Un ejemplo notable es la minería de datos de las grandes cantidades de información proporcionada por el Proyecto Genoma Humano para identificar tendencias en los datos genómicos..
Finalmente, aunque la nueva tendencia basada en datos se está desarrollando rápidamente y ha tenido un gran impacto, también implica muchos desafíos nuevos, incluida la brecha entre la computación y el experimento. Aunque los métodos computacionales tienen como objetivo ayudar a lograr los objetivos del experimento, los resultados de los primeros no siempre son transferibles a los segundos. Por ejemplo, cuando se utiliza el aprendizaje automático para encontrar moléculas candidatas, debemos tener en cuenta que las moléculas rara vez son únicas en sus vías sintéticas, y a menudo es difícil saber si una reacción química inexplorada funcionará en la práctica. Incluso si funciona, hay problemas con el rendimiento, la pureza y el aislamiento del compuesto en estudio.
La brecha entre el trabajo computacional y experimental se hace aún mayor, ya que los métodos computacionales utilizan métricas que no siempre son transferibles a este último, como la Electrodinámica Cuántica (QED), que describe todos los fenómenos que involucran partículas cargadas que interactúan por medio de la fuerza electromagnética, por lo que su verificación experimental puede no ser factible. También existe la necesidad de una mejor base de datos. Sin embargo, surge el problema de la falta de puntos de referencia. Dado que todo el espacio químico es infinito, se espera tener una muestra suficientemente grande que pueda ayudar en la generalización posterior. Sin embargo, la mayoría de las bases de datos actuales están diseñadas para diferentes propósitos y, a menudo, utilizan diferentes formatos de archivo. Algunos de ellos no tienen procedimientos de validación para las presentaciones o no están diseñados para tareas de IA. También hay que decir que la mayoría de las bases de datos disponibles tienen un alcance limitado de datos químicos: sólo contienen ciertos tipos de moléculas. Además, la mayoría de las tareas que implican el uso de IA para predicciones químicas no tienen plataformas de referencia hacienda que la comparación entre muchos estudios diferentes resulte impracticable.

Una de las principales razones del éxito de AlphaFold, que, como ya se ha visto, es un programa de IA desarrollado por DeepMind (Alphabet / Google) para predecir la estructura 3D de las proteínas, radica en el hecho de que ha proporcionado todo lo anterior como parte de la evaluación crítica de la predicción de la estructura de las proteínas, es decir, la inferencia de una estructura 3D de proteínas a partir de su secuencia de aminoácidos. por ejemplo, la predicción de su estructura secundaria y terciaria a partir de su estructura primaria. Esta evaluación demuestra la necesidad de esfuerzos organizados para racionalizar, simplificar y mejorar otras tareas relacionadas con la predicción química.

En conclusión, a medida que continuamos avanzando en la era digital, nuevos algoritmos y hardware más poderoso continuarán levantando el velo sobre problemas previamente intratables. La integración de la Inteligencia Artificial en el descubrimiento químico todavía está en su infancia, pero ya es un lugar común escuchar el término «descubrimiento basado en datos». }

Muchas empresas, ya sean gigantes farmacéuticos o nuevas empresas recién fundadas, han adoptado muchas de las tecnologías anteriores y han aportado una mayor automatización, eficiencia y reproducibilidad a la química. La Inteligencia Artificial nos permite llevar a cabo la ciencia a una escala sin precedentes y en los últimos años esto ha generado muchas iniciativas y atraído fondos que continuarán llevándonos más lejos en una era de descubrimiento científico autónomo. (2. continuará).

^*Copresidente del Consejo Asesor Honoris Causa. El Profesor Giancarlo Elia Valori es un eminente economista y empresario italiano. Posee prestigiosas distinciones académicas y órdenes nacionales. Ha dado conferencias sobre asuntos internacionales y economía en las principales universidades del mundo, como la Universidad de Pekín, la Universidad Hebrea de Jerusalén y la Universidad Yeshiva de Nueva York. Actualmente preside el «International World Group», es también presidente honorario de Huawei Italia, asesor económico del gigante chino HNA Group y miembro de la Junta de Ayan-Holding. En 1992 fue nombrado Oficial de la Legión de Honor de la República Francesa, con esta motivación: “Un hombre que puede ver a través de las fronteras para entender el mundo” y en 2002 recibió el título de “Honorable” de la Academia de Ciencias del Instituto de Francia.

Traducido al español por el Equipo de la SAEEG con expresa autorización del autor. Prohibida su reproducción.

Marcelo Javier de los Reyes