Command Palette
Search for a command to run...
MaskCLR: Auf Aufmerksamkeit gestützte kontrastive Lernmethode für robuste Aktionsdarstellungslernung
MaskCLR: Auf Aufmerksamkeit gestützte kontrastive Lernmethode für robuste Aktionsdarstellungslernung
Alexandre Alahi Mariam Hassan Mohamed Abdelfattah
Zusammenfassung
Modelle zur skelettbasierten Aktionserkennung, die auf Stromwandler (Current Transformers) basieren, neigen dazu, sich auf eine begrenzte Menge an Gelenken und niedrigstufige Bewegungsmuster zu konzentrieren, um Aktionsklassen vorherzusagen. Dies führt zu einer erheblichen Leistungsverschlechterung bei geringfügigen Störungen des Skeletts oder bei unterschiedlichen Pose-Estimatoren zwischen Trainings- und Testphase. In dieser Arbeit stellen wir MaskCLR vor – einen neuen Ansatz basierend auf maskierter kontrastiver Lernung für robuste Aktionserkennung auf Basis von Skeletten. Wir schlagen eine auf Aufmerksamkeit gestützte probabilistische Maskierung vor, um die wichtigsten Gelenke zu verdecken und das Modell dazu zu bringen, eine größere Menge diskriminativer Gelenke zu erkunden. Darüber hinaus entwickeln wir ein mehrstufiges kontrastives Lernparadigma, das sicherstellt, dass die Darstellungen von standardisierten und maskierten Skeletten klassendifferenzierend sind, also innerhalb jeder Klasse kompakter und zwischen verschiedenen Klassen weiter auseinander liegend. Unser Ansatz ermöglicht es dem Modell, hochstufige Aktionssemantik zu erfassen, anstatt sich auf niedrigstufige Gelenkbewegungen zu konzentrieren, und kann problemlos in transformerbasierte Modelle integriert werden. Ohne Beschränkung der Allgemeingültigkeit kombinieren wir MaskCLR mit drei Transformer-Backbones: dem einfachen Transformer DSTFormer und STTFormer. Umfangreiche Experimente an den Datensätzen NTU60, NTU120 und Kinetics400 zeigen, dass MaskCLR sowohl auf standardisierten als auch auf gestörten Skeletten aus verschiedenen Pose-Estimatoren konsistent die bisher besten Ansätze übertrifft und eine verbesserte Genauigkeit, Verallgemeinerungsfähigkeit und Robustheit aufweist. Projekt-Website: https://maskclr.github.io.