HyperAIHyperAI

Command Palette

Search for a command to run...

MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs

Résumé

Les modèles vidéo-langage (VLM), grands modèles pré-entraînés sur de nombreuses paires vidéo-texte bruyantes issues d’internet, ont révolutionné la reconnaissance d’activités grâce à leurs capacités remarquables de généralisation et de compréhension à vocabulaire ouvert. Bien que les activités humaines complexes soient souvent hiérarchiques et composantes, la plupart des tâches existantes d’évaluation des VLM se concentrent uniquement sur la compréhension vidéo de haut niveau, rendant difficile une évaluation précise et interprétable de la capacité des VLM à comprendre des activités humaines complexes et fines. Inspirés par le cadre récemment proposé MOMA, nous définissons les graphes d’activités comme une représentation universelle unique des activités humaines, intégrant la compréhension vidéo aux niveaux d’activité, sous-activité et action atomique. Nous réinterprétons la segmentation d’activités comme la tâche globale de génération de graphe d’activités, exigeant une compréhension des activités humaines à ces trois niveaux. Pour faciliter l’évaluation des modèles sur cette tâche, nous introduisons MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs), un grand jeu de données d’activités humaines complexes doté d’annotations de graphes d’activités pouvant être facilement transformées en phrases naturelles. Enfin, nous proposons une approche légère et indépendante du modèle pour adapter et évaluer les VLM en intégrant des connaissances structurées issues des graphes d’activités, combinant ainsi les forces des modèles linguistiques et graphiques tout en surmontant leurs limites individuelles. Nous démontrons des performances solides sur la segmentation d’activités en peu d’exemples, et notre cadre vise à stimuler les recherches futures sur la modélisation conjointe de vidéos, de graphes et de langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MOMA-LRG : Graphes raffinés par le langage pour l'analyse d'activités multi-objets et multi-acteurs | Articles | HyperAI