HyperAIHyperAI
vor 18 Tagen

PERF-Net: Pose-empowertes RGB-Flow-Net

Yinxiao Li, Zhichao Lu, Xuehan Xiong, Jonathan Huang
PERF-Net: Pose-empowertes RGB-Flow-Net
Abstract

In den letzten Jahren haben zahlreiche Arbeiten im Bereich der Video-Aktionserkennung gezeigt, dass Zweistrom-Modelle (die räumliche und zeitliche Eingabeströme kombinieren) notwendig sind, um die derzeit beste Leistung zu erzielen. In diesem Artikel zeigen wir die Vorteile einer zusätzlichen Strömung, die auf der aus jedem Frame geschätzten menschlichen Pose basiert – genauer gesagt durch die Darstellung der Pose auf den Eingabebildern im RGB-Format. Auf den ersten Blick mag diese zusätzliche Strömung redundant erscheinen, da die menschliche Pose vollständig durch die RGB-Pixelwerte bestimmt ist; wir zeigen jedoch (vielleicht überraschenderweise), dass diese einfache und flexible Erweiterung ergänzende Verbesserungen liefern kann. Auf Basis dieses Einblicks schlagen wir ein neues Modell vor, das wir PERF-Net (kurz für Pose Empowered RGB-Flow Net) nennen, das diese neue Pose-Strömung mittels Distillationstechniken mit den herkömmlichen RGB- und Fluss-basierten Eingabeströmen kombiniert. Wir zeigen, dass unser Modell in mehreren Datensätzen zur menschlichen Aktionserkennung die derzeit beste Leistung deutlich übertrifft, ohne dass während der Inferenz explizit Fluss oder Pose berechnet werden müssen. Die vorgeschlagene Pose-Strömung ist zudem Teil der Siegerlösung des ActivityNet Kinetics Challenge 2020.

PERF-Net: Pose-empowertes RGB-Flow-Net | Neueste Forschungsarbeiten | HyperAI