Las vastas franjas del genoma humano siguen siendo un misterio para la ciencia. Una nueva IA de Google Deepmind está ayudando a los investigadores a comprender cómo estos tramos de ADN afectan la actividad de otros genes.
Mientras el Proyecto del genoma humano Produje un mapa completo de nuestro ADN, todavía sabemos sorprendentemente poco sobre lo que la mayoría hace. Aproximadamente el 2 por ciento del genoma humano codifica proteínas específicas, pero el propósito del otro 98 por ciento es mucho menos claro.
Históricamente, los científicos llamaron a esta parte del genoma “ADN basura”. Pero hay un reconocimiento creciente que estas llamadas regiones “no codificantes” juegan un papel elementary en la regulación de la expresión de genes en otras partes del genoma.
Extrae estas interacciones es un negocio complicado. Pero ahora un nuevo modelo de Google DeepMind llamado alfagenoma puede tomar largos períodos de ADN y hacer predicciones sobre cómo las diferentes variantes genéticas afectarán la expresión génica, así como una serie de otras propiedades importantes.
“Por primera vez, hemos creado un modelo único que unifica muchos desafíos diferentes que conlleva la comprensión del genoma”, Pushmeet Kohli, vicepresidente de investigación en Deepmind, dijo Revisión de la tecnología del MIT.
El llamado modelo de “secuencia a función” utiliza la misma arquitectura de transformador que los grandes modelos de lenguaje detrás de los populares chatbots de IA. El modelo fue entrenado en bases de datos públicas de resultados experimentales que prueban cómo las diferentes secuencias impactan la regulación génica. Los investigadores pueden ingresar una secuencia de ADN de hasta un millón de letras, y el modelo hará predicciones sobre una amplia gama de propiedades moleculares que afectan la actividad reguladora de la secuencia.
Estos incluyen cosas como donde los genes comienzan y terminan, a las que las secciones del ADN son accesibles o bloqueadas por ciertas proteínas, y cuánto ARN se produce. El ARN es la molécula mensajera responsable de llevar las instrucciones contenidas en el ADN a las fábricas de proteínas de la célula, o ribosomas, así como common la expresión génica.
El alfagenoma también puede evaluar el impacto de las mutaciones en genes específicos al comparar variantes, y puede hacer predicciones sobre el “empalme” de ARN, un proceso donde las moléculas de ARN se cortan y empacan antes de ser enviados a un ribosoma. Los errores en este proceso son responsables de enfermedades genéticas raras, como la atrofia muscular espinal y algunas formas de fibrosis quística.
Predecir el impacto de diferentes variantes genéticas podría ser particularmente útil. En una publicación de weblogLos investigadores de DeepMind informan que utilizaron el modelo para predecir cómo las mutaciones que otros científicos habían descubierto en los pacientes con leucemia probablemente activaron un gen cercano conocido por desempeñar un papel en el cáncer.
“Este sistema nos acerca a una buena primera suposición sobre lo que cualquier variante hará cuando la observemos en un humano”, dijo Caleb Lareau, biólogo computacional del Centro de Cáncer Memorial Sloan Kettering otorgó acceso temprano al alfagenoma, dijo Revisión de la tecnología del MIT.
El modelo será gratuito para fines no comerciales, y DeepMind se ha comprometido a lanzar detalles completos de cómo se construyó en el futuro. Pero todavía tiene limitaciones. La compañía cube que el modelo no puede hacer predicciones sobre los genomas de los individuos, y sus predicciones no explican completamente cómo las variaciones genéticas conducen a rasgos o enfermedades complejas. Además, no puede predecir con precisión cómo el ADN no codificante afecta a los genes que se encuentran a más de 100,000 cartas en el genoma.
Anshul Kundaje, un genomicista computacional en la Universidad de Stanford en Palo Alto, California, que tenía acceso temprano al alfagenoma, dijo Naturaleza Que el nuevo modelo es un desarrollo emocionante y significativamente mejor que los modelos anteriores, pero no una volcada. “Este modelo aún no ha ‘resuelto’ la regulación génica en la misma medida que Alphafold, por ejemplo, la predicción de proteínas 3D-estructura”, cube.
No obstante, el modelo es un avance importante en el esfuerzo por desmitificar el La “materia oscura del genoma. ” Podría transformar nuestra comprensión de la enfermedad y los esfuerzos de los biólogos sintéticos de sobrealimentación para ADN de reingenista para nuestros propios fines.