il y a 8 mois

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

Les modèles de vision-langue (VL) à grande échelle ont montré des succès considérables dans l'alignement des représentations entre les modalités visuelle et textuelle. Cela permet des progrès remarquables en reconnaissance zéro-shot, génération et édition d'images, ainsi que dans de nombreuses autres tâches passionnantes. Cependant, ces modèles ont tendance à sur-représenter les objets tout en accordant beaucoup moins d'attention aux verbes, et nécessitent un ajustement supplémentaire sur des données vidéo pour une meilleure performance en reconnaissance zéro-shot d'actions. Alors que les travaux précédents s'appuyaient sur des données entièrement annotées à grande échelle, nous proposons dans ce travail une approche non supervisée. Nous adaptons un modèle VL pour la reconnaissance zéro-shot et peu supervisée d'actions en utilisant une collection de vidéos non étiquetées et un dictionnaire d'actions non apparié. À partir de cela, nous utilisons des grands modèles linguistiques et des modèles VL pour construire un sac de texte pour chaque vidéo non étiquetée via le couplage, l'expansion du texte et la légendage. Nous utilisons ces sacs dans un cadre d'apprentissage multi-instance pour adapter un backbone image-texte aux données vidéo. Bien qu'affinés sur des données vidéo non étiquetées, nos modèles résultants montrent une forte transférabilité vers de nombreuses tâches zéro-shot inédites, améliorant les performances du modèle VL de base jusqu'à 14 %, et même se comparant favorablement aux baselines entièrement supervisées en transfert de reconnaissance zéro-shot et peu supervisée de vidéos. Le code sera publié ultérieurement à l'adresse \url{https://github.com/wlin-at/MAXI}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Représentation Multimodale

Video Captioning

Multimodal

Vision Par Ordinateur

Tâche

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Représentation Multimodale

Video Captioning

Multimodal

Vision Par Ordinateur

Tâche

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MAtch, eXpand et Améliore : Ajustement fin non supervisé pour la reconnaissance d’actions à zéro coup avec des connaissances linguistiques

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters