
Para comprobar si este problema se aplica a los grandes modelos multimodales actuales, el equipo realizó una evaluación controlada. Entrenaron a los modelos seleccionados en cinco tareas específicas, incluida la clasificación detallada de aves, el conteo, la respuesta a preguntas visuales médicas, la lectura de OCR y la lectura del tiempo. Luego midieron cuánto cayó el rendimiento en ocho puntos de referencia estándar que no formaban parte del conjunto de ajustes.
Según el artículo, estos experimentos condujeron a dos descubrimientos clave. Ajustar solo las capas de proyección de autoatención (SA Proj), la parte del modelo que le ayuda a decidir en qué elementos de entrada centrarse, permitió a los modelos aprender nuevas tareas con poco o ningún olvido mensurable. Además, lo que inicialmente parecía conocimiento olvidado a menudo resurgió cuando el modelo fue entrenado posteriormente en otra tarea especializada.
«Por lo tanto, planteamos la hipótesis de que tal vez lo que parece un olvido o una interferencia después de realizar un ajuste fino en una tarea objetivo estrecha sea en realidad un sesgo en la distribución de la producción debido al cambio en la distribución de la tarea», agregaron los investigadores. «A través de un análisis en profundidad al ajustar la tarea de conteo, confirmamos esta hipótesis: ajustar el MLP aumenta la precisión del objetivo pero también aumenta la probabilidad de generar tokens numéricos y una caída altamente correlacionada en la precisión de la tarea retenida, mientras que el ajuste de la autoatención logra el aprendizaje objetivo sin mucho sesgo hacia los tokens numéricos y sin perder precisión retenida».




