Adaptation des modèles vision-langage sans étiquettes : une revue complète

Les modèles vision-langage (VLM) ont démontré des capacités de généralisation remarquables sur une large gamme de tâches. Toutefois, leur performance reste souvent sous-optimale lorsqu’ils sont appliqués directement à des scénarios spécifiques sans adaptation spécifique à la tâche. Afin d’améliorer leur utilité tout en préservant l’efficacité des données, la recherche récente s’est progressivement concentrée sur des méthodes d’adaptation non supervisée ne reposant pas sur des données étiquetées. Malgré l’intérêt croissant porté à ce domaine, un manque persiste en matière d’étude unifiée et orientée vers la tâche dédiée à l’adaptation non supervisée des VLM. Pour combler cette lacune, nous présentons une synthèse complète et structurée de ce domaine. Nous proposons une taxonomie fondée sur la disponibilité et la nature des données visuelles non étiquetées, classant les approches existantes en quatre paradigmes clés : transfert sans données (aucune donnée), transfert de domaine non supervisé (données abondantes), adaptation en temps de test épisodique (données par lots) et adaptation en temps de test en ligne (données en flux continu). Dans ce cadre, nous analysons les méthodologies fondamentales et les stratégies d’adaptation associées à chacun de ces paradigmes, dans le but d’établir une compréhension systématique du domaine. En outre, nous passons en revue des benchmarks représentatifs dans diverses applications, et mettons en lumière les défis ouverts ainsi que les perspectives prometteuses pour les recherches futures. Un répertoire activement mis à jour de la littérature pertinente est disponible à l’adresse suivante : https://github.com/tim-learn/Awesome-LabelFree-VLMs.