Cross-Model Cross-Stream Lernen für selbstüberwachtes menschliches Aktions-Recognition
Angesichts der diskriminativen Fähigkeit auf Instanzebene wurden kontrastive Lernmethoden, darunter MoCo und SimCLR, von der ursprünglichen Aufgabe der Bildrepräsentationslernung angepasst, um das selbstüberwachte Aktionserkennungsproblem auf Basis von Skelett-Daten zu lösen. Diese Ansätze verwenden üblicherweise mehrere Datensströme (z. B. Gelenke, Bewegung und Knochen) für ensemblesbasiertes Lernen. Gleichzeitig bleibt die Frage offen, wie ein diskriminativer Merkmalsraum innerhalb eines einzelnen Ströms aufgebaut und die Informationen aus mehreren Strömen effektiv aggregiert werden können. Um dieses Problem anzugehen, wendet diese Arbeit erstmals eine neue kontrastive Lernmethode namens BYOL zur Analyse von Skelett-Daten an und formuliert darauf aufbauend SkeletonBYOL als eine einfache, aber effektive Baseline für selbstüberwachtes, auf Skelett-Daten basierendes Aktionserkennen. Inspiriert durch SkeletonBYOL präsentiert diese Arbeit zudem einen Cross-Model- und Cross-Stream (CMCS)-Framework. Dieser kombiniert Cross-Model-Adversariales Lernen (CMAL) und Cross-Stream-Kooperatives Lernen (CSCL). Konkret nutzt CMAL eine cross-model-adversarielle Verlustfunktion, um Einzelström-Representationen zu lernen und somit diskriminativere Merkmale zu erzeugen. Um die Aggregation und Interaktion von Mehrström-Informationen zu ermöglichen, wird CSCL durch die Generierung von Ähnlichkeits-Pseudolabels für das ensemblesbasierte Lernen als Supervision entworfen, wodurch die Merkmalsgenerierung einzelner Ströme geleitet wird. Umfassende Experimente an drei Datensätzen bestätigen die ergänzenden Eigenschaften zwischen CMAL und CSCL und zeigen zudem, dass die vorgeschlagene Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren unter verschiedenen Evaluierungsprotokollen bessere Ergebnisse erzielt.