HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs

MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs

Résumé

Les modèles vidéo-langage (VLM), grands modèles pré-entraînés sur de nombreuses paires vidéo-texte bruyantes issues d’internet, ont révolutionné la reconnaissance d’activités grâce à leurs capacités remarquables de généralisation et de compréhension à vocabulaire ouvert. Bien que les activités humaines complexes soient souvent hiérarchiques et composantes, la plupart des tâches existantes d’évaluation des VLM se concentrent uniquement sur la compréhension vidéo de haut niveau, rendant difficile une évaluation précise et interprétable de la capacité des VLM à comprendre des activités humaines complexes et fines. Inspirés par le cadre récemment proposé MOMA, nous définissons les graphes d’activités comme une représentation universelle unique des activités humaines, intégrant la compréhension vidéo aux niveaux d’activité, sous-activité et action atomique. Nous réinterprétons la segmentation d’activités comme la tâche globale de génération de graphe d’activités, exigeant une compréhension des activités humaines à ces trois niveaux. Pour faciliter l’évaluation des modèles sur cette tâche, nous introduisons MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs), un grand jeu de données d’activités humaines complexes doté d’annotations de graphes d’activités pouvant être facilement transformées en phrases naturelles. Enfin, nous proposons une approche légère et indépendante du modèle pour adapter et évaluer les VLM en intégrant des connaissances structurées issues des graphes d’activités, combinant ainsi les forces des modèles linguistiques et graphiques tout en surmontant leurs limites individuelles. Nous démontrons des performances solides sur la segmentation d’activités en peu d’exemples, et notre cadre vise à stimuler les recherches futures sur la modélisation conjointe de vidéos, de graphes et de langage.

Benchmarks

BenchmarkMéthodologieMétriques
few-shot-action-recognition-on-moma-lrgCMN
Activity Classification Accuracy (5-shot 5-way): 86.3
Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrgOTAM
Activity Classification Accuracy (5-shot 5-way): 92.07
Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrgSG-VLM
Activity Classification Accuracy (5-shot 5-way): 92.5
Subactivity Classification Accuracy (5-shot 5-way): 32.70

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs | Articles de recherche | HyperAI