Zero-Shot-Skelettbasierte Aktionserkennung durch Schätzung und Maximierung der gegenseitigen Information

Die zero-shot skeletonbasierte Aktionserkennung (零样本骨架动作识别) strebt danach, Aktionen unbekannter Kategorien zu erkennen, nachdem das Modell auf Daten bekannter Kategorien trainiert wurde. Der Kern liegt darin, eine Verbindung zwischen dem visuellen und semantischen Raum von bekannten zu unbekannten Klassen herzustellen. Frühere Studien haben sich hauptsächlich auf die Kodierung von Sequenzen in einen einzelnen Merkmalsvektor konzentriert, wobei die Merkmale anschließend auf einen identischen Ankerpunkt im eingebetteten Raum abgebildet wurden. Ihre Leistung wird durch 1) die Vernachlässigung der globalen Verteilungsangleichung des visuellen und semantischen Raums eingeschränkt, was dazu führt, dass die wahre Interdependenz zwischen den beiden Räumen nicht vollständig erfasst werden kann. 2) Die temporale Information wird außerdem vernachlässigt, da die rahmengenau erfassten Merkmale mit reichen Aktionshinweisen direkt in einen einzigen Merkmalsvektor zusammengefasst werden. Wir schlagen eine neue Methode zur zero-shot skeletonbasierten Aktionserkennung vor, die auf der Schätzung und Maximierung der gegenseitigen Information (Mutual Information, MI) basiert. Speziell: 1) Maximieren wir die MI zwischen dem visuellen und semantischen Raum für die Verteilungsangleichung; 2) Nutzen wir die temporale Information zur Schätzung der MI, indem wir sicherstellen, dass die MI zunimmt, je mehr Frames beobachtet werden. Ausführliche Experimente auf drei großen Skeleton-Aktionsdatensätzen bestätigen die Effektivität unserer Methode. Code: https://github.com/YujieOuO/SMIE.请注意,"零样本骨架动作识别" 是一个中文术语,在德语中没有直接对应的术语,因此我将其翻译为 "zero-shot skeletonbasierte Aktionserkennung" 并在括号中标注了原文。其他部分则按照您的要求进行了翻译和优化。