
Índices MetaGraph y vastos archivos de secuencias de ADN, ARN y proteínas. Los científicos pueden buscar en archivos y rastrear contextos biológicos en big data.Crédito: Andrew Brookes/Connect Images/Biblioteca de fotografías científicas
Internet tiene a Google. Ahora la biología tiene MetaGraph. Detallado hoy en Naturaleza1el motor de búsqueda puede examinar rápidamente los asombrosos volúmenes de información biológica datos alojados en repositorios públicos.
«Es un gran logro», afirma Rayan Chikhi, investigador de biocomputación del Instituto Pasteur de París. “Establecieron un nuevo estándar” para analizar datos biológicos sin procesar –incluyendo secuencias de ADN, ARN y proteínas– de bases de datos que pueden contener millones de miles de millones de letras de ADN, lo que equivale a 'pebases' de información, más entradas que todas las páginas web del vasto índice de Google.
Aunque MetaGraph está etiquetado como «Google para ADN», Chikhi compara la herramienta con un motor de búsqueda de YouTube, porque las tareas son más exigentes desde el punto de vista computacional. De la misma manera que las búsquedas en YouTube pueden recuperar todos los videos que presentan, digamos, globos rojos incluso cuando esas palabras clave no aparecen en el título, las etiquetas o la descripción, MetaGraph puede descubrir patrones genéticos ocultos en lo profundo de conjuntos de datos de secuenciación expansivos sin necesidad de que esos patrones sean anotados explícitamente de antemano.
«Permite cosas que no se pueden hacer de otra manera», afirma Chikhi.
Un software inteligente desenreda la regulación genética en las células
Indexando la biblioteca de la vida
La motivación detrás de MetaGraph fue abordar un problema de accesibilidad en secuenciación de conjuntos de datos. El tamaño de estos repositorios ha aumentado a un ritmo vertiginoso en las últimas décadas, pero este crecimiento ha presentado desafíos para los científicos que utilizan los datos que contienen. Las lecturas de secuenciación sin procesar están fragmentadas, son ruidosas y demasiado numerosas para buscarlas directamente. «El volumen de datos, paradójicamente, es el principal obstáculo para que realmente utilicemos los datos», dice Artem Babaian, biólogo computacional de la Universidad de Toronto en Canadá.
Según uno de los autores del estudio, André Kahles, bioinformático del Instituto Federal Suizo de Tecnología (ETH) de Zurich en Suiza, MetaGraph podría ayudar a los investigadores a plantear cuestiones biológicas en repositorios como el Sequence Read Archive (SRA), una base de datos pública que contiene más de 100 millones de billones de letras de ADN.2.
Abordaron el problema mediante el uso de «gráficos» matemáticos que vinculan fragmentos de ADN superpuestos, de manera muy similar a oraciones que comparten las mismas palabras alineadas en el índice de un libro.
Los investigadores integraron datos de siete depósitos de datos financiados con fondos públicos, creando 18,8 millones de conjuntos únicos de secuencias de ADN y ARN y 210 mil millones de conjuntos de secuencias de aminoácidos en todos los clados de la vida, incluidos virus, bacterias, hongos, plantas y animales, incluidos los humanos. También desarrollaron un motor de búsqueda para estas secuencias, en el que los usuarios utilizan mensajes de texto para buscar estos archivos integrados de datos sin procesar.
«Es una forma totalmente nueva de interactuar con este conjunto de datos», afirma Kahles. «Está comprimido, pero es accesible sobre la marcha».
La enorme base de datos de proteínas que generó AlphaFold y la revolución de la IA en biología
Para demostrar la utilidad de MetaGraph, los autores del estudio lo utilizaron para escanear 241,384 muestras de microbioma intestinal humano en busca de indicadores genéticos de resistencia a los antibióticos en el mundobasándose en un trabajo que utilizó una versión anterior de la herramienta para rastrear genes de resistencia a los medicamentos en cepas bacterianas que viven en los sistemas de metro de los principales centros urbanos.3. Los autores dicen que realizaron el análisis en aproximadamente una hora en una computadora de alta potencia.





