HyperAIHyperAI

Command Palette

Search for a command to run...

PERF-Net: Pose-empowertes RGB-Flow-Net

Yinxiao Li Zhichao Lu Xuehan Xiong Jonathan Huang

Zusammenfassung

In den letzten Jahren haben zahlreiche Arbeiten im Bereich der Video-Aktionserkennung gezeigt, dass Zweistrom-Modelle (die räumliche und zeitliche Eingabeströme kombinieren) notwendig sind, um die derzeit beste Leistung zu erzielen. In diesem Artikel zeigen wir die Vorteile einer zusätzlichen Strömung, die auf der aus jedem Frame geschätzten menschlichen Pose basiert – genauer gesagt durch die Darstellung der Pose auf den Eingabebildern im RGB-Format. Auf den ersten Blick mag diese zusätzliche Strömung redundant erscheinen, da die menschliche Pose vollständig durch die RGB-Pixelwerte bestimmt ist; wir zeigen jedoch (vielleicht überraschenderweise), dass diese einfache und flexible Erweiterung ergänzende Verbesserungen liefern kann. Auf Basis dieses Einblicks schlagen wir ein neues Modell vor, das wir PERF-Net (kurz für Pose Empowered RGB-Flow Net) nennen, das diese neue Pose-Strömung mittels Distillationstechniken mit den herkömmlichen RGB- und Fluss-basierten Eingabeströmen kombiniert. Wir zeigen, dass unser Modell in mehreren Datensätzen zur menschlichen Aktionserkennung die derzeit beste Leistung deutlich übertrifft, ohne dass während der Inferenz explizit Fluss oder Pose berechnet werden müssen. Die vorgeschlagene Pose-Strömung ist zudem Teil der Siegerlösung des ActivityNet Kinetics Challenge 2020.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp