Command Palette
Search for a command to run...
MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques
MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques
Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1
Résumé
Les modèles de vision-langue (VL) à grande échelle ont montré des succès considérables dans l'alignement des représentations entre les modalités visuelle et textuelle. Cela permet des progrès remarquables en reconnaissance zéro-shot, génération et édition d'images, ainsi que dans de nombreuses autres tâches passionnantes. Cependant, ces modèles ont tendance à sur-représenter les objets tout en accordant beaucoup moins d'attention aux verbes, et nécessitent un ajustement supplémentaire sur des données vidéo pour une meilleure performance en reconnaissance zéro-shot d'actions. Alors que les travaux précédents s'appuyaient sur des données entièrement annotées à grande échelle, nous proposons dans ce travail une approche non supervisée. Nous adaptons un modèle VL pour la reconnaissance zéro-shot et peu supervisée d'actions en utilisant une collection de vidéos non étiquetées et un dictionnaire d'actions non apparié. À partir de cela, nous utilisons des grands modèles linguistiques et des modèles VL pour construire un sac de texte pour chaque vidéo non étiquetée via le couplage, l'expansion du texte et la légendage. Nous utilisons ces sacs dans un cadre d'apprentissage multi-instance pour adapter un backbone image-texte aux données vidéo. Bien qu'affinés sur des données vidéo non étiquetées, nos modèles résultants montrent une forte transférabilité vers de nombreuses tâches zéro-shot inédites, améliorant les performances du modèle VL de base jusqu'à 14 %, et même se comparant favorablement aux baselines entièrement supervisées en transfert de reconnaissance zéro-shot et peu supervisée de vidéos. Le code sera publié ultérieurement à l'adresse \url{https://github.com/wlin-at/MAXI}.