MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure

Video-Sprachmodelle (VLMs), große Modelle, die auf zahlreichen, jedoch verrauschten Video-Text-Paaren aus dem Internet vortrainiert wurden, haben die Aktivitätserkennung durch ihre bemerkenswerte Generalisierungsfähigkeit und offene-Vokabular-Fähigkeit revolutioniert. Während komplexe menschliche Aktivitäten oft hierarchisch und kompositionell strukturiert sind, konzentrieren sich die meisten gängigen Bewertungsaufgaben für VLMs lediglich auf die hochstufige Videoverstehens, was eine präzise Beurteilung und Interpretation der Fähigkeit von VLMs zur Erfassung komplexer und fein abgestufter menschlicher Aktivitäten erschwert. Inspiriert durch den kürzlich vorgeschlagenen MOMA-Framework definieren wir Aktivitätsgraphen als eine universelle Darstellung menschlicher Aktivitäten, die das Verständnis von Videos auf der Ebene der Aktivität, Unteraktivität und atomaren Aktion umfasst. Wir redefinieren die Aktivitätsanalyse als umfassende Aufgabe der Erzeugung von Aktivitätsgraphen, die das Verständnis menschlicher Aktivitäten auf allen drei Ebenen erfordert. Um die Bewertung von Modellen in der Aktivitätsanalyse zu erleichtern, führen wir MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs) ein – eine große Datensammlung komplexer menschlicher Aktivitäten mit Aktivitätsgraphen-Annotationen, die problemlos in natürliche Sprachsätze transformiert werden können. Schließlich präsentieren wir eine modellunabhängige und leichtgewichtige Methode zur Anpassung und Bewertung von VLMs, indem strukturiertes Wissen aus Aktivitätsgraphen in VLMs integriert wird, wodurch die individuellen Schwächen von Sprach- und Graphmodellen adressiert werden. Wir zeigen eine starke Leistung bei Few-Shot-Aktivitätsanalyse, und unser Framework soll zukünftige Forschung zur gemeinsamen Modellierung von Videos, Graphen und Sprache fördern.