HyperAIHyperAI

Command Palette

Search for a command to run...

MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

Les modèles de vision-langue (VL) à grande échelle ont montré des succès considérables dans l'alignement des représentations entre les modalités visuelle et textuelle. Cela permet des progrès remarquables en reconnaissance zéro-shot, génération et édition d'images, ainsi que dans de nombreuses autres tâches passionnantes. Cependant, ces modèles ont tendance à sur-représenter les objets tout en accordant beaucoup moins d'attention aux verbes, et nécessitent un ajustement supplémentaire sur des données vidéo pour une meilleure performance en reconnaissance zéro-shot d'actions. Alors que les travaux précédents s'appuyaient sur des données entièrement annotées à grande échelle, nous proposons dans ce travail une approche non supervisée. Nous adaptons un modèle VL pour la reconnaissance zéro-shot et peu supervisée d'actions en utilisant une collection de vidéos non étiquetées et un dictionnaire d'actions non apparié. À partir de cela, nous utilisons des grands modèles linguistiques et des modèles VL pour construire un sac de texte pour chaque vidéo non étiquetée via le couplage, l'expansion du texte et la légendage. Nous utilisons ces sacs dans un cadre d'apprentissage multi-instance pour adapter un backbone image-texte aux données vidéo. Bien qu'affinés sur des données vidéo non étiquetées, nos modèles résultants montrent une forte transférabilité vers de nombreuses tâches zéro-shot inédites, améliorant les performances du modèle VL de base jusqu'à 14 %, et même se comparant favorablement aux baselines entièrement supervisées en transfert de reconnaissance zéro-shot et peu supervisée de vidéos. Le code sera publié ultérieurement à l'adresse \url{https://github.com/wlin-at/MAXI}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp