HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure

MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure

Abstract

Video-Sprachmodelle (VLMs), große Modelle, die auf zahlreichen, jedoch verrauschten Video-Text-Paaren aus dem Internet vortrainiert wurden, haben die Aktivitätserkennung durch ihre bemerkenswerte Generalisierungsfähigkeit und offene-Vokabular-Fähigkeit revolutioniert. Während komplexe menschliche Aktivitäten oft hierarchisch und kompositionell strukturiert sind, konzentrieren sich die meisten gängigen Bewertungsaufgaben für VLMs lediglich auf die hochstufige Videoverstehens, was eine präzise Beurteilung und Interpretation der Fähigkeit von VLMs zur Erfassung komplexer und fein abgestufter menschlicher Aktivitäten erschwert. Inspiriert durch den kürzlich vorgeschlagenen MOMA-Framework definieren wir Aktivitätsgraphen als eine universelle Darstellung menschlicher Aktivitäten, die das Verständnis von Videos auf der Ebene der Aktivität, Unteraktivität und atomaren Aktion umfasst. Wir redefinieren die Aktivitätsanalyse als umfassende Aufgabe der Erzeugung von Aktivitätsgraphen, die das Verständnis menschlicher Aktivitäten auf allen drei Ebenen erfordert. Um die Bewertung von Modellen in der Aktivitätsanalyse zu erleichtern, führen wir MOMA-LRG (Multi-Object Multi-Actor Language-Refined Graphs) ein – eine große Datensammlung komplexer menschlicher Aktivitäten mit Aktivitätsgraphen-Annotationen, die problemlos in natürliche Sprachsätze transformiert werden können. Schließlich präsentieren wir eine modellunabhängige und leichtgewichtige Methode zur Anpassung und Bewertung von VLMs, indem strukturiertes Wissen aus Aktivitätsgraphen in VLMs integriert wird, wodurch die individuellen Schwächen von Sprach- und Graphmodellen adressiert werden. Wir zeigen eine starke Leistung bei Few-Shot-Aktivitätsanalyse, und unser Framework soll zukünftige Forschung zur gemeinsamen Modellierung von Videos, Graphen und Sprache fördern.

Benchmarks

BenchmarkMethodikMetriken
few-shot-action-recognition-on-moma-lrgCMN
Activity Classification Accuracy (5-shot 5-way): 86.3
Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrgOTAM
Activity Classification Accuracy (5-shot 5-way): 92.07
Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrgSG-VLM
Activity Classification Accuracy (5-shot 5-way): 92.5
Subactivity Classification Accuracy (5-shot 5-way): 32.70

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MOMA-LRG: Sprachverfeinerte Graphen für die Aktivitätsanalyse mehrerer Objekte und Akteure | Forschungsarbeiten | HyperAI