Científicos argentinos estudian cómo un ChatGPT podría entender el ‘lenguaje’ de las proteínas y el ARN
Así como la inteligencia artificial (IA) es buena para interpretar textos del lenguaje humano, también puede entrenarse para “leer” secuencias de ADN, ARN y proteínas, lo cual podría tener implicancias en medicina y en producción agrícola, aseguran científicos argentinos.
Los sistemas de IA como ChatGPT constan, de manera simplificada, de dos grandes componentes: uno, que llevan adelante Grandes Modelos del Lenguaje (o LLM, por sus siglas en inglés), es decir, redes neuronales capaces de leer, traducir y resumir textos; y otro, que consiste en un sistema que genera una devolución a partir de lo que entiende la primera fase. Con esto en mente, un grupo de investigadores del CONICET en el Instituto de Investigación en Señales, Sistemas e Inteligencia Artificial (“sinc(i)”) de Santa Fe, que depende también de la Universidad Nacional del Litoral, busca obtener modelos que utilicen de forma más eficiente los LLM existentes, e incluso diseñar nuevos, para resolver desafíos abiertos en el campo de las secuencias biológicas.
“A diferencia de nuestro lenguaje, que tiene un orden jerárquico explícito (letras, sílabas, palabras y oraciones), el de las secuencias biológicas no es tan evidente, pero sí podemos encontrar patrones y jerarquías”, explicó a la Agencia CyTA-Leloir el doctor y bioingeniero Leandro Bugnon, autor principal de un artículo de opinión publicado en la revista Patterns. Y añadió: “Al identificar patrones en este ‘lenguaje de la vida’ podemos establecer relaciones entre ellos y las funciones biológicas que cumplen y, con esa información, se podrán acelerar los desarrollos de nuevos tratamientos médicos contra el cáncer y vacunas, o adaptar una planta para que sea inmune a ciertas plagas”.
Todos los seres vivos están codificados en un llamado “lenguaje de la vida” compuesto por secuencias biológicas de ADN, ARN y proteínas, que se pueden leer como si fuera texto a partir del listado de los 20 aminoácidos que conforman a estas últimas o de las letras que corresponden a los nucleótidos, componentes básicos del ARN (Adenina, Citosina, Guanina y Timina o Uracilo), como “AAAGCUUUG”.
“En la actualidad hay una gran cantidad de datos de secuencias biológicas generados por experimentos y centralizados en bases de datos públicas. Pero lo que suele suceder es que, para resolver un problema concreto, como identificar a qué familia pertenece una nueva proteína y qué funciones cumple, se requiere de la validación de expertos del dominio, un proceso que puede llevar años. O sea, es mucho más lento que la velocidad a la que se generan los datos”, graficó Bugnon. Así, solo una poca información de toda la que se obtiene está etiquetada con referencias validadas.
Para resolver esta situación, Bugnon y sus colegas plantean el uso de un proceso que se conoce como “aprendizaje por transferencia”, según el cual los LLM pueden aprender automáticamente patrones de los datos sin etiquetado humano, a los que luego hay que adaptar a tareas específicas para las que no fueron entrenados originalmente. En este sentido, para el problema de la clasificación de proteínas en familias desarrollaron en el sinc(i) una red neuronal artificial que toma como entrada una secuencia, encuentra patrones con un LLM entrenado en grandes conjuntos de datos de proteínas, y luego aprende de estos patrones para asignar la familia que le corresponde en un conjunto de datos más pequeño, explican en el artículo.
“Al aplicar estos LLM, incluso utilizando sistemas de clasificación sencillos, logramos muy buenos resultados, con hasta un 40% menos de errores que los que obtienen otros grupos internacionales con redes neuronales más complejas”, aseguró. Y aclaró que entrenar LLM es costoso computacionalmente, ya que requiere de varios días de cómputo con equipamiento especial (“unidades de procesamiento gráfico” o GPUs de gran capacidad). “En nuestro trabajo utilizamos como punto de partida un LLM que fue liberado públicamente por Facebook Research y que es accesible para cualquiera que lo quiera usar”, dijo.
El desafío del ARN
El ARN codifica información sólo con 4 letras, por lo que los patrones son menos evidentes y más difíciles de encontrar que los de las proteínas. “Estamos particularmente interesados en el ARN no codificante que, a diferencia del ARN mensajero, no se traduce en una proteína: son secuencias que se pliegan en estructuras específicas y cumplen diversas funciones biológicas”, señaló Bugnon. Y explicó que conocer esa estructura experimentalmente es muy costoso, por lo que se utilizan métodos computacionales para predecirla.
“Como existen muy pocas secuencias con estructuras conocidas, una de nuestras hipótesis de trabajo es que podemos desarrollar un LLM específico para ARN, que sería como un ChatGPT pero para descubrir nuevas funciones en el ARN no codificante y así poder ayudar a curar enfermedades o a mejorar plantas”, finalizó Bugnon.
Fuente: Agencia CyTA-Leloir