Los biólogos y los químicos tienen un nuevo lenguaje de programación para descubrir contaminantes ambientales previamente desconocidos a velocidad vertiginosa, sin requerirles que codifiquen. Al facilitar la búsqueda de conjuntos de datos químicos masivos, la herramienta ya ha identificado compuestos tóxicos ocultos a la vista.
Los datos de espectrometría de masas son como una huella digital química, que muestra a los científicos qué moléculas están en una muestra como el aire, el agua o la sangre, y en qué cantidades. Ayuda a identificar todo, desde contaminantes en agua hasta productos químicos en nuevos medicamentos.
Desarrollado en UC Riverside, lenguaje de consulta de masas o MassQL, funciones como un motor de búsqueda para datos de espectrometría de masas, lo que permite a los investigadores encontrar patrones que de otro modo requerirían habilidades de programación avanzadas. Los detalles técnicos sobre el lenguaje, y un ejemplo de cómo ayudó a identificar productos químicos retardantes de llama en las vías fluviales públicas, se describen en un nuevo Métodos de la naturaleza Artículo de revista.
“Queríamos dar a los químicos y biólogos, que generalmente no son científicos informáticos, la capacidad de extraer sus datos exactamente cómo quieren, sin tener que pasar meses o años aprendiendo a codificar”, dijo Mingxun Wang, profesor asistente de informática de UCR, que creó el idioma.
Demostrando la efectividad del idioma, Nina Zhao, una estudiante postdoctoral de la UCR ahora en UC San Diego, usó MassQL para examinar los datos de espectrometría de masas de todo el mundo sobre muestras de agua que se han puesto a disposición del público. Estaba buscando ésteres organofosforados, que generalmente se encuentran en los retardantes de la llama.
“Hay literalmente mil millones de mediciones de moléculas en estos datos. No se puede pasar manualmente”, dijo Wang. “Sin embargo, el lenguaje actúa como un filtro, en cierto sentido, para estos productos químicos, y sacó a much de ellos”.
Además de encontrar productos químicos conocidos en las muestras de agua, también encontraron compuestos organofosforados que no se han descrito o catalogado previamente, y algunos productos químicos que son producto de organofosforados que se descomponen con el tiempo.
“Estos productos químicos pueden causar muchos problemas para la salud humana y animal, y para los ecosistemas enteros. Fueron diseñados para ser retardantes o plastificantes de llama, pero pueden causar interrupciones endocrinas y sexuales, así como problemas cardiovasculares”, dijo Zhao.
Antes de que se puedan hacer planes para manejar o eliminar productos químicos tóxicos de nuestro medio ambiente, los científicos necesitan saber qué está presente. Ahí es donde MassQL es útil para científicos como Zhao.
“El lenguaje me permite rastrear todo lo que se ha detectado en todos los datos sobre el aire, el suelo, el agua e incluso en el cuerpo humano. Lo que exista, podemos buscar productos químicos allí”, dijo.
Uno de los desafíos para crear MassQL fue obtener un consenso de los científicos de la vida para acordar la definición de términos que utilizaría el software program. “Tanto los químicos como los informáticos tienen que entenderlo, y el software program debe ser capaz de operar en él”, dijo Wang.
Por esta razón, unos 70 científicos consultaron en la fase de desarrollo. Todos dieron sus comentarios sobre los términos de información más importantes y cómo expresarlo en el idioma MassQL.
El equipo de investigación también quería demostrar que el lenguaje podría ser útil en una variedad de situaciones de la vida actual. Además del proyecto de Zhao, el documento detalla más de 30 aplicaciones en las que se podría aplicar MassQL.
Los casos de uso de la muestra incluyen la detección de ácidos grasos como marcadores de intoxicación por alcohol, en busca de nuevos medicamentos para resolver la inminente disaster de resistencia a los antibióticos, aprendiendo sobre los productos químicos que las bacterias usan para comunicarse entre sí y encontrar productos químicos para siempre en parques infantiles.
En el pasado, Wang obtendría solicitudes de software program que pudieran buscar patrones de datos específicos para todos estos diferentes tipos de aplicaciones.
“Pensé que podría hacer algo para ahorrarme tiempo”, dijo. “Quería crear un idioma que pudiera manejar múltiples tipos de consultas. Y ahora lo hemos hecho. Estoy emocionado de escuchar sobre los descubrimientos que podrían provenir de esto”.