HyperAIHyperAI

Command Palette

Search for a command to run...

Neuüberprüfung von raumzeitlichen Layouts für die zusammengesetzte Aktionserkennung

Gorjan Radevski Marie-Francine Moens Tinne Tuytelaars

Zusammenfassung

Die Erkennung menschlicher Aktionen ist grundsätzlich ein Problem des spatio-temporalen Schließens und sollte zumindest teilweise invariant gegenüber dem Erscheinungsbild des Menschen und der beteiligten Objekte sein. Ausgehend von dieser Hypothese verfolgen wir in dieser Arbeit einen objektzentrierten Ansatz zur Aktionserkennung. Mehrere Arbeiten haben bereits dieses Setting untersucht, doch bleibt unklar (i) wie gut ein sorgfältig entworfener, auf spatio-temporalen Layouts basierender Ansatz menschliche Aktionen erkennen kann, und (ii) wie und wann Informationen aus Layout- und Erscheinungs-basierten Modellen sinnvoll fusioniert werden sollten. Der Schwerpunkt dieser Arbeit liegt auf kompositionaler / Few-Shot-Aktionserkennung, bei der wir die Verwendung von Multi-Head-Attention (die sich bereits als wirksam für räumliches Schließen erwiesen hat) über spatio-temporalen Layouts, d. h. Konfigurationen von Objektbegrenzungsboxen, befürworten. Wir evaluieren verschiedene Ansätze zur Integration von Video-Erscheinungsinformationen in das System und benchmarken unseren Ansatz auf der Aufgabe der Aktionserkennung in störender Hintergrundumgebung. Auf den Datensätzen Something-Else und Action Genome zeigen wir (i) wie Multi-Head-Attention für die auf spatio-temporalen Layouts basierende Aktionserkennung erweitert werden kann, (ii) wie die Leistung von Erscheinungs-basierten Modellen durch die Fusion mit Layout-basierten Modellen verbessert werden kann, und (iii) dass selbst auf nicht-kompositionalen, störenden Hintergrund-Datensätzen eine Fusion zwischen Layout- und Erscheinungs-basierten Modellen die Gesamtleistung steigert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neuüberprüfung von raumzeitlichen Layouts für die zusammengesetzte Aktionserkennung | Paper | HyperAI