HyperAIHyperAI

Command Palette

Search for a command to run...

Fügen Sie einfach π\piπ hinzu! Pose-induzierte Video-Transformer zur Verständnis von Alltagsaktivitäten

Dominick Reilly Srijan Das

Zusammenfassung

Videotransformer sind zu einem faktischen Standard für die Erkennung menschlicher Aktionen geworden, doch ihre ausschließliche Abhängigkeit von der RGB-Modalität begrenzt noch immer ihre Verwendung in bestimmten Bereichen. Ein solcher Bereich sind die Aktivitäten des täglichen Lebens (ADL), wo RGB allein nicht ausreicht, um visuell ähnliche Aktionen oder Aktionen, die aus mehreren Perspektiven beobachtet werden, zu unterscheiden. Um die Einführung von Videotransformern in den Bereich ADL zu erleichtern, gehen wir davon aus, dass die Ergänzung von RGB mit Informationen zur menschlichen Körperhaltung, bekannt für ihre Empfindlichkeit gegenüber feingranularen Bewegungen und mehreren Perspektiven, unerlässlich ist. Daher stellen wir den ersten Pose-induzierten Videotransformer vor: PI-ViT (oder π\piπ-ViT), einen neuartigen Ansatz, der die durch Videotransformer gelernten RGB-Darstellungen mit 2D- und 3D-Körperhaltungsinformationen erweitert. Die wesentlichen Bestandteile des π\piπ-ViT sind zwei Plug-In-Module: das 2D-Skelettinduktionsmodul und das 3D-Skelettinduktionsmodul, welche dafür verantwortlich sind, 2D- und 3D-Körperhaltungsinformationen in die RGB-Darstellungen einzubinden. Diese Module arbeiten indem sie pose-bewusste Nebenaufgaben durchführen, eine Designentscheidung, die es dem π\piπ-ViT ermöglicht, die Module während der Inferenz zu entfernen. Bemerkenswerterweise erreicht der π\piπ-ViT den aktuellen Stand der Technik auf drei führenden ADL-Datensätzen, einschließlich sowohl realweltlicher als auch großskaliger RGB-D-Datensätze, ohne während der Inferenz Körperformationen oder zusätzlichen Rechenaufwand zu benötigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fügen Sie einfach $\pi$ hinzu! Pose-induzierte Video-Transformer zur Verständnis von Alltagsaktivitäten | Paper | HyperAI