HyperAIHyperAI
vor 4 Monaten

Maskierte Bewegungsvorhersager sind starke 3D-Aktionsrepräsentationslerner

Mao, Yunyao ; Deng, Jiajun ; Zhou, Wengang ; Fang, Yao ; Ouyang, Wanli ; Li, Houqiang
Maskierte Bewegungsvorhersager sind starke 3D-Aktionsrepräsentationslerner
Abstract

Im Bereich der 3D-Aktenerkennung bei Menschen stellt die begrenzte Menge an überwachten Daten eine Herausforderung dar, das Modellierungspotenzial leistungsfähiger Netze wie Transformer vollständig auszuschöpfen. Daher untersuchen Forscher aktiv effektive selbstüberwachte Vortrainingsstrategien. In dieser Arbeit zeigen wir, dass anstelle des verbreiteten Vorwandtasks zur maskierten Selbstkomponentenrekonstruktion in menschlichen Gelenken, die explizite Modellierung kontextueller Bewegungen entscheidend für den Erfolg beim Lernen effektiver Merkmalsrepräsentationen für die 3D-Aktenerkennung ist. Formal schlagen wir den Rahmenwerk Masked Motion Prediction (MAMP) vor. Genauer gesagt nimmt das vorgeschlagene MAMP eine maskierte räumlich-zeitliche Skelettfolge als Eingabe und prognostiziert die entsprechende zeitliche Bewegung der maskierten menschlichen Gelenke. Angesichts der hohen zeitlichen Redundanz der Skelettfolge fungiert in unserem MAMP die Bewegungsinformation auch als ein empirischer semantischer Reichtum, der den Maskierungsprozess leitet und eine bessere Aufmerksamkeit auf semantisch reiche zeitliche Bereiche fördert. Umfangreiche Experimente mit den Datensätzen NTU-60, NTU-120 und PKU-MMD zeigen, dass das vorgeschlagene MAMP-Vortraining die Leistung des eingesetzten einfachen Transformers erheblich verbessert und topaktuelle Ergebnisse ohne zusätzliche Verfeinerungen erzielt. Der Quellcode unseres MAMP ist unter https://github.com/maoyunyao/MAMP verfügbar.