34.7 C
Colombia
domingo, julio 6, 2025

Una IA comparable a ChatGPT ahora puede diseñar genomas completamente nuevos desde cero


Toda la vida en la Tierra está escrita con cuatro “letras” de ADN. Una IA acaba de usar esas letras para idear un genoma completamente nuevo desde cero.

llamado evola IA se inspiró en los grandes modelos de lenguaje, o LLM, que subyacen a los chatbots populares como ChatGPT de OpenAI y Claude de Anthropic. Estos modelos han conquistado al mundo por su capacidad para generar respuestas similares a las humanas. Desde tareas simples, como definir una palabra obtusa, hasta resumir artículos científicos o escupir versos aptos para una batalla de rap, los LLM han entrado en nuestra vida cotidiana.

Si los LLM pueden dominar los lenguajes escritos, ¿podrían hacer lo mismo con el lenguaje de la vida?

Este mes, un equipo de la Universidad de Stanford y el Instituto Arc pusieron a prueba la teoría. En lugar de entrenar a Evo con contenido extraído de Web, entrenaron a la IA con casi tres millones de genomas (que equivalen a far de millones de líneas de código genético) de varios microbios y virus que infectan bacterias.

Evo fue mejor que los modelos de IA anteriores a la hora de predecir cómo las mutaciones en el materials genético (ADN y ARN) podrían alterar la función. La IA también se volvió creativa e ideó varios componentes nuevos para la herramienta de edición genética, CRISPR. Aún más impresionante es que la IA generó un genoma de más de una megabase de largo, aproximadamente del tamaño de algunos genomas bacterianos.

“En basic, Evo representa un modelo de base genómica”. escribió Christina Theodoris del Instituto Gladstone de San Francisco, que no participó en el trabajo.

Habiendo aprendido el vocabulario genómico, algoritmos como Evo podrían ayudar a los científicos a investigar la evolución, descifrar el funcionamiento interno de nuestras células, abordar misterios biológicos y acelerar la biología sintética mediante el diseño de nuevas biomoléculas complejas.

El multiverso del ADN

En comparación con las 26 letras del alfabeto inglés, el ADN solo tiene A, T, C y G. Estas “letras” son una abreviatura de las cuatro moléculas: adenina (A), timina (T), citosina (C) y guanina (G). )—que, combinados, explican nuestros genes. Si los LLM pueden conquistar idiomas y generar nueva prosa, reescribir el guide genético con solo cuatro letras debería ser pan comido.

No exactamente. El lenguaje humano está organizado en palabras, frases y puntuado en oraciones para transmitir información. El ADN, por el contrario, es más continuo y los componentes genéticos son complejos. Las mismas letras de ADN contienen “hilos paralelos de información”, escribió Theodoris.

El más acquainted es el papel del ADN como portador genético. Una combinación específica de tres letras del ADN, llamada codón, codifica un bloque de construcción de proteínas. Estos están unidos en las proteínas que forman nuestros tejidos y órganos y dirigen el funcionamiento interno de nuestras células.

Pero la misma secuencia genética, dependiendo de su estructura, también puede reclutar las moléculas necesarias para convertir codones en proteínas. Y a veces, las mismas letras de ADN pueden convertir un gen en diferentes proteínas dependiendo de la salud y el entorno de la célula o incluso desactivar el gen.

En otras palabras, las letras del ADN contienen una gran cantidad de información sobre la complejidad del genoma. Y cualquier cambio puede poner en peligro la función de una proteína, lo que resulta en enfermedades genéticas y otros problemas de salud. Esto hace que sea basic que la IA trabaje con la resolución de letras individuales de ADN.

Pero a la IA le resulta difícil capturar múltiples hilos de información a gran escala analizando únicamente letras genéticas, en parte debido a los altos costos computacionales. Al igual que las antiguas escrituras romanas, el ADN es un continuo de letras sin una puntuación clara. Por lo tanto, podría ser necesario “leer” hebras enteras para obtener una imagen basic de su estructura y función, es decir, para descifrar el significado.

Anterior intentos tener “agregó” letras de ADN en bloques, un poco como hacer palabras artificiales. Si bien son más fáciles de procesar, estos métodos interrumpen la continuidad del ADN, lo que resulta en la retención de “algunos hilos de información a expensas de otros”, escribió Theodoris.

Cimientos de construcción

Evo abordó estos problemas de frente. Sus diseñadores intentaron preservar todos los hilos de información, mientras operaban con una resolución de una sola letra de ADN con costos computacionales más bajos.

El truco consistía en darle a Evo un contexto más amplio para cualquier porción determinada del genoma aprovechando un tipo específico de configuración de IA utilizado en una familia de algoritmos llamada StripeHyena. En comparación con GPT-4 y otros modelos de IA, StripeHyena está diseñado para ser más rápido y más capaz de procesar grandes entradas, por ejemplo, grandes longitudes de ADN. Esto amplió la llamada “ventana de búsqueda” de Evo, permitiéndole encontrar mejor patrones en un panorama genético más amplio.

Luego, los investigadores entrenaron la IA en una base de datos de casi tres millones de genomas de bacterias y virus que infectan bacterias, conocidos como fagos. También aprendió de los plásmidos, fragmentos circulares de ADN que a menudo se encuentran en bacterias y que transmiten información genética entre microbios, estimulando la evolución y perpetuando la resistencia a los antibióticos.

Una vez entrenado, el equipo enfrentó a Evo con otros modelos de IA para predecir cómo las mutaciones en una secuencia genética determinada podrían afectar la función de la secuencia, como la codificación de proteínas. Aunque nunca se dijo qué letras genéticas forman codones, Evo superó en la tarea a un modelo de IA entrenado explícitamente para reconocer letras de ADN que codifican proteínas.

Sorprendentemente, Evo también predijo el efecto de las mutaciones en una amplia variedad de moléculas de ARN, por ejemplo, aquellas que regulan la expresión genética, transportan componentes básicos de proteínas a la fábrica de producción de proteínas de la célula y actúan como enzimas para ajustar la función de las proteínas.

Evo parecía haber adquirido una “comprensión basic de la gramática del ADN”, escribió Theodoris, convirtiéndola en una herramienta perfecta para crear un nuevo código genético “significativo”.

Para probar esto, el equipo utilizó la IA para diseñar nuevas versiones de la herramienta de edición de genes CRISPR. La tarea es especialmente difícil porque el sistema contiene dos elementos que trabajan juntos: una molécula de ARN guía y un par de “tijeras” de proteínas llamadas Cas. Evo generó millones de proteínas Cas potenciales y el ARN guía que las acompaña. El equipo eligió 11 de las combinaciones más prometedoras, las sintetizó en el laboratorio y probó su actividad en tubos de ensayo.

Uno se destacó. Una variante de Cas9, la proteína diseñada por IA escindió su objetivo de ADN cuando se emparejó con su compañero de ARN guía. Estos biomoléculas de diseño representan los “primeros ejemplos” de codiseño entre proteínas y ADN o ARN con un modelo de lenguaje, escribió el equipo.

El equipo también pidió a Evo que generara una secuencia de ADN comparable en longitud a algunos genomas bacterianos y comparó los resultados con los genomas naturales. El genoma diseñado contenía algunos genes esenciales para la supervivencia celular, pero con innumerables características antinaturales que le impedían ser funcional. Esto sugiere que la IA sólo puede crear una “imagen borrosa” de un genoma, una que contiene elementos clave, pero que carece de detalles más detallados, escribió el equipo.

Al igual que otros LLM, Evo a veces “alucina” y arroja sistemas CRISPR sin posibilidad de funcionar. A pesar de los problemas, la IA sugiere que los futuros LLM podrían predecir y generar genomas a una escala más amplia. La herramienta también podría ayudar a los científicos a examinar interacciones genéticas de largo alcance en microbios y fagos, lo que podría generar concepts sobre cómo podríamos reconfigurar sus genomas para producir biocombustibles. insectos que comen plásticoo medicamentos.

Aún no está claro si Evo podría descifrar o generar genomas más largoscomo los de las plantas, los animales o los humanos. Sin embargo, si el modelo puede ampliarse, “tendría enormes implicaciones diagnósticas y terapéuticas para la enfermedad”, escribió Theodoris.

Crédito de la imagen: Warren Umoh en desempaquetar

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles