HyperAI

Abstract

Video-Sprachmodelle (VLMs), große Modelle, die auf zahlreichen, jedoch verrauschten Video-Text-Paaren aus dem Internet vortrainiert wurden, haben die Aktivitätserkennung durch ihre bemerkenswerte Generalisierungsfähigkeit und offene-Vokabular-Fähigkeit revolutioniert. Während komplexe menschliche Aktivitäten oft hierarchisch und kompositionell strukturiert sind, konzentrieren sich die meisten gängigen Bewertungsaufgaben für VLMs lediglich auf die hochstufige Videoverstehens, was eine präzise Beurteilung und Interpretation der Fähigkeit von VLMs zur Erfassung komplexer und fein abgestufter menschlicher Aktivitäten erschwert. Inspiriert durch den kürzlich vorgeschlagenen MOMA-Framework definieren wir Aktivitätsgraphen als eine universelle Darstellung menschlicher Aktivitäten, die das Verständnis von Videos auf der Ebene der Aktivität, Unteraktivität und atomaren Aktion umfasst. Wir redefinieren die Aktivitätsanalyse als umfassende Aufgabe der Erzeugung von Aktivitätsgraphen, die das Verständnis menschlicher Aktivitäten auf allen drei Ebenen erfordert. Um die Bewertung von Modellen in der Aktivitätsanalyse zu erleichtern, führen wir MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs) ein – eine große Datensammlung komplexer menschlicher Aktivitäten mit Aktivitätsgraphen-Annotationen, die problemlos in natürliche Sprachsätze transformiert werden können. Schließlich präsentieren wir eine modellunabhängige und leichtgewichtige Methode zur Anpassung und Bewertung von VLMs, indem strukturiertes Wissen aus Aktivitätsgraphen in VLMs integriert wird, wodurch die individuellen Schwächen von Sprach- und Graphmodellen adressiert werden. Wir zeigen eine starke Leistung bei Few-Shot-Aktivitätsanalyse, und unser Framework soll zukünftige Forschung zur gemeinsamen Modellierung von Videos, Graphen und Sprache fördern.

Benchmarks

Benchmark	Methodik	Metriken
few-shot-action-recognition-on-moma-lrg	CMN	Activity Classification Accuracy (5-shot 5-way): 86.3 Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrg	OTAM	Activity Classification Accuracy (5-shot 5-way): 92.07 Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrg	SG-VLM	Activity Classification Accuracy (5-shot 5-way): 92.5 Subactivity Classification Accuracy (5-shot 5-way): 32.70

MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure

{Fei-Fei Li Ehsan Adeli Juan Carlos Niebles Jiajun Wu Lun Yu Li Zhuoyi Huang Emily Jin Ruochen Liu Wanze Xie Linden Li

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure

{Fei-Fei Li Ehsan Adeli Juan Carlos Niebles Jiajun Wu Lun Yu Li Zhuoyi Huang Emily Jin Ruochen Liu Wanze Xie Linden Li2 more

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

{Fei-Fei Li Ehsan Adeli Juan Carlos Niebles Jiajun Wu Lun Yu Li Zhuoyi Huang Emily Jin Ruochen Liu Wanze Xie Linden Li