HyperAIHyperAI
vor 2 Monaten

ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos

Chiou, Meng-Jiun ; Liao, Chun-Yu ; Wang, Li-Wei ; Zimmermann, Roger ; Feng, Jiashi
ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (HOI) ist ein wichtiger Schritt auf dem Weg zu einer umfassenden visuellen Verständigung durch Maschinen. Während die Erkennung nicht-zeitlicher HOIs (z.B. das Sitzen auf einem Stuhl) aus statischen Bildern möglich ist, ist es selbst für Menschen unwahrscheinlich, zeitbezogene HOIs (z.B. das Öffnen/Schließen einer Tür) aus einem einzelnen Video-Bilderrahmen zu erraten, wo die benachbarten Rahmungen eine wesentliche Rolle spielen. Dennoch wurden herkömmliche HOI-Methoden, die nur auf statischen Bildern basieren, verwendet, um zeitbezogene Interaktionen vorherzusagen. Dies entspricht im Wesentlichen einem Raten ohne zeitliche Kontextinformationen und kann zu suboptimaler Leistung führen. In dieser Arbeit schließen wir diese Lücke, indem wir video-basierte HOIs mit expliziten zeitlichen Informationen erkennen. Zunächst zeigen wir, dass eine naive zeitbewusste Variante eines üblichen Aktionserkennungs-Grundlinienmodells aufgrund eines Merkmalsinkonsistenzproblems bei video-basierten HOIs nicht funktioniert. Anschließend schlagen wir eine einfache aber effektive Architektur vor, die als Spatial-Temporal HOI Detection (ST-HOI) bezeichnet wird und zeitliche Informationen wie Mensch- und Objekttrajektorien, korrekt lokalisierte visuelle Merkmale und räumlich-zeitliche Maskierungs-Pose-Merkmale nutzt. Wir erstellen einen neuen Video-HOI-Benchmark namens VidHOI, bei dem unser vorgeschlagener Ansatz als robuste Grundlinie dient.

ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos | Neueste Forschungsarbeiten | HyperAI