vor 8 Monaten

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (HOI) ist ein wichtiger Schritt auf dem Weg zu einer umfassenden visuellen Verständigung durch Maschinen. Während die Erkennung nicht-zeitlicher HOIs (z.B. das Sitzen auf einem Stuhl) aus statischen Bildern möglich ist, ist es selbst für Menschen unwahrscheinlich, zeitbezogene HOIs (z.B. das Öffnen/Schließen einer Tür) aus einem einzelnen Video-Bilderrahmen zu erraten, wo die benachbarten Rahmungen eine wesentliche Rolle spielen. Dennoch wurden herkömmliche HOI-Methoden, die nur auf statischen Bildern basieren, verwendet, um zeitbezogene Interaktionen vorherzusagen. Dies entspricht im Wesentlichen einem Raten ohne zeitliche Kontextinformationen und kann zu suboptimaler Leistung führen. In dieser Arbeit schließen wir diese Lücke, indem wir video-basierte HOIs mit expliziten zeitlichen Informationen erkennen. Zunächst zeigen wir, dass eine naive zeitbewusste Variante eines üblichen Aktionserkennungs-Grundlinienmodells aufgrund eines Merkmalsinkonsistenzproblems bei video-basierten HOIs nicht funktioniert. Anschließend schlagen wir eine einfache aber effektive Architektur vor, die als Spatial-Temporal HOI Detection (ST-HOI) bezeichnet wird und zeitliche Informationen wie Mensch- und Objekttrajektorien, korrekt lokalisierte visuelle Merkmale und räumlich-zeitliche Maskierungs-Pose-Merkmale nutzt. Wir erstellen einen neuen Video-HOI-Benchmark namens VidHOI, bei dem unser vorgeschlagener Ansatz als robuste Grundlinie dient.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ST-HOI: Eine räumlich-zeitliche Baseline für die Erkennung von Mensch-Objekt-Interaktionen in Videos

Meng-Jiun Chiou Chun-Yu Liao Li-Wei Wang Roger Zimmermann Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters