MELTR : Meta Loss Transformer pour l'apprentissage de l'affinage des modèles fondamentaux vidéo

Les modèles de fondation ont montré des performances et des capacités de généralisation exceptionnelles dans divers domaines. Comme la plupart des études sur les modèles de fondation se concentrent principalement sur la phase de pré-entraînement, une stratégie naïve visant à minimiser une seule perte spécifique à une tâche est généralement adoptée pour l'ajustement fin. Cependant, ces méthodes d'ajustement fin ne tirent pas pleinement parti d'autres pertes potentiellement bénéfiques pour la tâche cible. Nous proposons donc MEta Loss TRansformer (MELTR), un module d'insertion qui combine automatiquement et de manière non linéaire diverses fonctions de perte pour faciliter l'apprentissage de la tâche cible par apprentissage auxiliaire. Nous formulons cet apprentissage auxiliaire comme un problème d'optimisation à deux niveaux et présentons un algorithme d'optimisation efficace basé sur la différentiation implicite approximative (AID). Pour évaluer notre cadre, nous l'avons appliqué à divers modèles vidéo de fondation (UniVL, Violet et All-in-one) et avons démontré une amélioration significative des performances sur les quatre tâches en aval suivantes : recherche vidéo à partir du texte, réponse aux questions sur les vidéos, légendage vidéo et analyse des sentiments multimodaux. Nos analyses qualitatives montrent que MELTR transforme adéquatement les fonctions de perte individuelles et les fusionne en une perte unifiée efficace. Le code est disponible à l'adresse https://github.com/mlvlab/MELTR.