Los modelos de lenguaje generativos (LLMs), como ChatGPT, son herramientas que aprenden de patrones estadísticos en el lenguaje para predecir lo que viene a continuación en una oración. Los biólogos están utilizando esta tecnología para descubrir nuevos conocimientos en genética al identificar patrones en las secuencias de ADN. Esta combinación de IA y genética permite una mejor comprensión del lenguaje del ADN y ayuda a desvelar sus secretos.
Versatilidad predictiva
La versatilidad de ChatGPT es sorprendente, ya que puede realizar diversas tareas como generar poemas o corregir ensayos. Del mismo modo, los modelos de lenguaje basados en el ADN también son muy flexibles. Pueden predecir qué hacen diferentes partes del código genético y cómo interactúan los genes entre sí. Estos modelos aprenden de las secuencias de ADN, sin necesidad de referencias específicas, lo que podría abrir nuevas formas de análisis.
Por ejemplo, un modelo entrenado en el genoma humano pudo predecir con exactitud el donde las proteínas se unirían al ARN en el proceso llamado expresión génica. Este proceso es fundamental para convertir la información del ADN en proteínas. Este modelo fue capaz tanto de predecir dónde las proteínas se unen al ARN al igual que cómo se pliega el ARN (proceso crucial para que las interacciones ocurran correctamente)
Estas proteínas regulan la cantidad de ARN que se traduce en proteínas, lo que se conoce como expresión génica. Para hacer estas predicciones, el modelo tuvo que considerar no solo la ubicación de las interacciones en el genoma, sino también la forma en la que el ARN se pliega, ya que esto es crucial para las interacciones. Además, los modelos de lenguaje del ADN pueden predecir cómo pueden surgir nuevas mutaciones en el genoma. Por ejemplo, los científicos desarrollaron un modelo para predecir y reconstruir la evolución del virus SARS-CoV-2 utilizando secuencias genéticas a gran escala.
La acción genómica a distancia
La “acción genómica a distancia” es un concepto que ha surgido en los últimos años, este se refiere a interacciones inesperadas entre diferentes partes del genoma, antes consideradas insignificantes, pero que tienen un efecto importante en la expresión genética y la aparición de enfermedades.
Utilizando modelos de lenguaje del ADN, los científicos pueden estudiar estas interacciones ocultas y entender cómo los genes se relacionan entre sí.
También han desarrollado modelos de lenguaje del ADN capaces de identificar variantes genéticas y descubrir su efecto en la salud. Estas herramientas son valiosas para la investigación biológica y pueden ayudar a revelar nuevos conocimientos sobre enfermedades y mecanismos complejos. Como un nuevo estudio publicado en bioRxiv, llevado a cabo por científicos de Universidad de California en Berkeley o otro estudio publicado en Nature Machine Intelligence
El problema de la alucinación
En el mundo del diseño de proteínas, la “creatividad” de los modelos de lenguaje se convierte en una herramienta valiosa para crear proteínas totalmente nuevas desde cero, a pesar de que a veces puedan generar información inexacta, lo que se conoce como “alucinación”.
Los científicos están aplicando estos modelos de lenguaje a conjuntos de datos de proteínas, siguiendo el éxito de modelos de aprendizaje profundo como AlphaFold ( un modelo de IA desarrollado por DeepMind que predice la estructura tridimensional de las proteínas), para predecir cómo se pliegan las proteínas. El plegamiento de las proteínas es un proceso complicado en el que una cadena de aminoácidos se transforma en una forma funcional. Las secuencias de ADN determinan cómo se pliegan las proteínas, lo que sugiere que podemos aprender sobre su estructura y función solo analizando las secuencias genéticas.
Además, los biólogos continúan aprovechando los modelos de lenguaje del ADN para extraer información valiosa de los enormes volúmenes de datos genómicos disponibles, explorando la diversidad de la vida en nuestro planeta y obteniendo nuevos conocimientos en el proceso.
Noticia redactada por: Lucia Cardona
Leer noticia completa
How generative AI language models are unlocking the secrets of DNA