Fügen Sie einfach $\pi$ hinzu! Pose-induzierte Video-Transformer zur Verständnis von Alltagsaktivitäten

Videotransformer sind zu einem faktischen Standard für die Erkennung menschlicher Aktionen geworden, doch ihre ausschließliche Abhängigkeit von der RGB-Modalität begrenzt noch immer ihre Verwendung in bestimmten Bereichen. Ein solcher Bereich sind die Aktivitäten des täglichen Lebens (ADL), wo RGB allein nicht ausreicht, um visuell ähnliche Aktionen oder Aktionen, die aus mehreren Perspektiven beobachtet werden, zu unterscheiden. Um die Einführung von Videotransformern in den Bereich ADL zu erleichtern, gehen wir davon aus, dass die Ergänzung von RGB mit Informationen zur menschlichen Körperhaltung, bekannt für ihre Empfindlichkeit gegenüber feingranularen Bewegungen und mehreren Perspektiven, unerlässlich ist. Daher stellen wir den ersten Pose-induzierten Videotransformer vor: PI-ViT (oder $\pi$-ViT), einen neuartigen Ansatz, der die durch Videotransformer gelernten RGB-Darstellungen mit 2D- und 3D-Körperhaltungsinformationen erweitert. Die wesentlichen Bestandteile des $\pi$-ViT sind zwei Plug-In-Module: das 2D-Skelettinduktionsmodul und das 3D-Skelettinduktionsmodul, welche dafür verantwortlich sind, 2D- und 3D-Körperhaltungsinformationen in die RGB-Darstellungen einzubinden. Diese Module arbeiten indem sie pose-bewusste Nebenaufgaben durchführen, eine Designentscheidung, die es dem $\pi$-ViT ermöglicht, die Module während der Inferenz zu entfernen. Bemerkenswerterweise erreicht der $\pi$-ViT den aktuellen Stand der Technik auf drei führenden ADL-Datensätzen, einschließlich sowohl realweltlicher als auch großskaliger RGB-D-Datensätze, ohne während der Inferenz Körperformationen oder zusätzlichen Rechenaufwand zu benötigen.