
El trabajo de Google Deepmind con Alfafold ha sido un milagro, pero es computacionalmente costoso. Con eso en mente, los investigadores de Apple comenzaron a desarrollar un método alternativo para usar IA para predecir la estructura 3D de las proteínas, y se muestra prometedor. Aquí están los detalles.
Si no estás familiarizado con Alfafoldeste es el innovador modelo de IA de Google Deepmind que puede predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos. Esto ha sido especialmente valioso para ayudar a desarrollar medicamentos más efectivos, así como materiales completamente nuevos.
Hasta hace unos años, este solía ser un problema increíblemente difícil. Predecir la estructura atómica tridimensional de una sola proteína podría llevar meses e incluso años.
Pero gracias a Alphafold, y ahora Alfafold2, así como a otros modelos de última generación como Rosettafold y ESMFold, este proceso de predicción lleva tan solo unas pocas horas o incluso minutos, dependiendo del hardware.
Cada uno de estos modelos emplea sus propios métodos y marcos para lograr una precisión tan alta, pero en general, requieren cálculos extremadamente costosos, y sus marcos tienen una estructura muy estricta.
Como lo expresaron los investigadores de Apple:
“Los modelos establecidos de plegamiento de proteínas como Alfafold2 y Rosettafold han logrado una precisión innovadora al confiar en arquitecturas cuidadosamente diseñadas que integran diseños de dominio computacionalmente pesados para tareas de plegamiento de proteínas, como alineaciones de secuencias múltiples (MSA) de secuencias de AA, secuencias de pares, y actualizaciones de triangulares, actualizaciones de triangulares, actualizaciones de triángulos, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, son actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, son actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares. Codifique nuestra comprensión actual del proceso de generación de estructura subyacente en estos modelos, en lugar de optar por dejar que los modelos aprendan esto directamente de los datos, lo que podría ser beneficioso por una variedad de razones «.
Ingrese el sencillo de Apple
En su modelo propuestoen lugar de confiar en «MSA, mapas de interacción por pares, actualizaciones triangulares o cualquier otro módulo geométrico equivalente», Apple se basa en los llamados modelos de coincidencia de flujo, que se introdujeron en 2023 y han demostrado ser muy populares para los modelos de texto a imagen y texto a 3D.
En pocas palabras, los modelos de coincidencia de flujo son una evolución de los modelos de difusión en los que cubrimos esta publicación. Pero en lugar de simplemente eliminar iterativamente el ruido de una imagen inicial, aprenden una ruta más suave que convierte el ruido aleatorio directamente en una imagen terminada de una vez.
Y debido a que este método omite muchos de los pasos de renovación, es menos costoso computacionalmente y genera resultados más rápido.

Los investigadores de Apple capacitaron a SimpleLdfold en múltiples tamaños diferentes, incluidos los parámetros de 100 m, 360m, 700m, 1.1b, 1.6b y 3b, y los evaluaron en «dos puntos de referencia de predicción de la estructura de proteínas ampliamente adoptadas: CAMEO22 y CASP14, que son pruebas rigurosas para la generalización, robustez y tráfico de nivel atómico en modelos plegables». «.
Los resultados fueron muy prometedores:
“Despite its simplicity, SimpleFold achieves competitive performance compared with these baselines. In both benchmarks, SimpleFold shows consistently better performance than ESMFlow which is also a flow-matching model built with ESM embeddings. On CAMEO22, SimpleFold demonstrates comparable results to the best folding models (eg, ESMFold, RoseTTAFold2, and AlphaFold2). In particular, SimpleFold achieves over 95% performance of Rosettafold2/Alphafold2 en la mayoría de las métricas sin aplicar atención de triángulo costosa y heurística y MSA «.
Y
«Para la integridad, informamos los resultados de SimpleLd utilizando diferentes tamaños de modelo. El modelo más pequeño simple-100m muestra un rendimiento competitivo dado su ventaja de la eficiencia tanto en la capacitación como en la inferencia. En particular, SimpleLd logra más del 90% del rendimiento ESMFold en CAMEO22, lo que demuestra la efectividad de construir un modelo de plegado utilizando bloques arquitectónicos de propósito general».

También vieron mejoras de rendimiento alineadas con la escala, lo que significa que los modelos más grandes con más datos de capacitación ofrecen un mejor rendimiento de plegado, especialmente en los puntos de referencia más desafiantes.
Finalmente, señalan que Simplefold es solo un primer paso, y dicen que «esperan (lo) sirve como una iniciativa para que la comunidad construya modelos generativos de proteínas eficientes y poderosos».
Puedes leer el Estudio completo sobre arxiv.
Ofertas de accesorios en Amazon
FTC: Utilizamos ingresos que ganan enlaces de afiliados para automóviles. Más.





