Multi-Modality Co-Learning für effiziente, gelenkbasierende Aktenerkennung

Die Aktionserkennung auf Basis von Skeletten hat aufgrund der Nutzung kompakter und robuster Skelettinformationen erhebliche Aufmerksamkeit erlangt. Dennoch beschränkt das Fehlen detaillierter Körperinformationen in Skeletten die Leistungsfähigkeit, während andere multimodale Ansätze erhebliche Ressourcen für die Inferenz erfordern und ineffizient sind, wenn multimodale Daten sowohl im Trainings- als auch im Inferenzstadium genutzt werden. Um dieses Problem anzugehen und die komplementären Merkmale mehrerer Modalitäten optimal auszunutzen, schlagen wir einen neuartigen Multi-Modality-Co-Learning (MMCL)-Framework vor, der multimodale große Sprachmodelle (LLMs) als Hilfsnetzwerke nutzt, um eine effiziente Aktionserkennung auf Basis von Skeletten zu ermöglichen. Während des Trainings erfolgt eine kooperative Lernprozess über mehrere Modi, während bei der Inferenz lediglich die kompakten Skelettinformationen verwendet werden, was die Effizienz gewährleistet. Unser MMCL-Framework besteht hauptsächlich aus zwei Modulen. Erstens extrahiert das Feature Alignment Module (FAM) reichhaltige RGB-Merkmale aus Videobildern und aligniert diese mit globalen Skelettmerkmalen mittels kontrastivem Lernen. Zweitens nutzt das Feature Refinement Module (FRM) RGB-Bilder mit zeitlicher Information sowie Textanweisungen, um auf Basis der starken Generalisierungsfähigkeit multimodaler LLMs anweisungsorientierte Merkmale zu generieren. Diese anweisungsorientierten Textmerkmale verbessern anschließend die Klassifikationswerte, wodurch die Robustheit und Generalisierungsfähigkeit des Modells ähnlich wie bei Soft-Labels erhöht wird. Umfassende Experimente an den Benchmarks NTU RGB+D, NTU RGB+D 120 und Northwestern-UCLA bestätigen konsistent die Wirksamkeit unseres MMCL-Frameworks, das die bestehenden Methoden der Skelett-basierten Aktionserkennung übertrifft. Zudem zeigen Experimente an den Datensätzen UTD-MHAD und SYSU-Action die hervorragende Generalisierungsfähigkeit unseres MMCL im Zero-Shot- und Domain-Adaptation-Szenario. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/liujf69/MMCL-Action.