HyperAIHyperAI
il y a 18 jours

MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs

{Fei-Fei Li, Ehsan Adeli, Juan Carlos Niebles, Jiajun Wu, Lun Yu Li, Zhuoyi Huang, Emily Jin, Ruochen Liu, Wanze Xie, Linden Li, Zane Durante, Zelun Luo}
MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs
Résumé

Les modèles vidéo-langage (VLM), grands modèles pré-entraînés sur de nombreuses paires vidéo-texte bruyantes issues d’internet, ont révolutionné la reconnaissance d’activités grâce à leurs capacités remarquables de généralisation et de compréhension à vocabulaire ouvert. Bien que les activités humaines complexes soient souvent hiérarchiques et composantes, la plupart des tâches existantes d’évaluation des VLM se concentrent uniquement sur la compréhension vidéo de haut niveau, rendant difficile une évaluation précise et interprétable de la capacité des VLM à comprendre des activités humaines complexes et fines. Inspirés par le cadre récemment proposé MOMA, nous définissons les graphes d’activités comme une représentation universelle unique des activités humaines, intégrant la compréhension vidéo aux niveaux d’activité, sous-activité et action atomique. Nous réinterprétons la segmentation d’activités comme la tâche globale de génération de graphe d’activités, exigeant une compréhension des activités humaines à ces trois niveaux. Pour faciliter l’évaluation des modèles sur cette tâche, nous introduisons MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs), un grand jeu de données d’activités humaines complexes doté d’annotations de graphes d’activités pouvant être facilement transformées en phrases naturelles. Enfin, nous proposons une approche légère et indépendante du modèle pour adapter et évaluer les VLM en intégrant des connaissances structurées issues des graphes d’activités, combinant ainsi les forces des modèles linguistiques et graphiques tout en surmontant leurs limites individuelles. Nous démontrons des performances solides sur la segmentation d’activités en peu d’exemples, et notre cadre vise à stimuler les recherches futures sur la modélisation conjointe de vidéos, de graphes et de langage.