SLIC: Selbstüberwachtes Lernen mit iterativer Clustering für Videos von menschlichen Aktionen

Selbstüberwachte Methoden haben den Abstand zu end-to-end überwachten Lernalgorithmen für die Bildklassifizierung erheblich verringert. Im Fall von Videos mit menschlichen Aktivitäten, bei denen sowohl Erscheinungsbild als auch Bewegung wichtige Variationselemente sind, bleibt dieser Abstand jedoch noch signifikant. Ein wesentlicher Grund dafür ist, dass das Sampling ähnlicher Videoclips, ein notwendiger Schritt für viele selbstüberwachte kontrastive Lernalgorithmen, derzeit vorsichtig durchgeführt wird, um Fehlpositive zu vermeiden. Eine übliche Annahme ist, dass ähnliche Clips nur zeitlich nahe beieinander innerhalb eines einzelnen Videos auftreten, was zu einem Mangel an Beispielen für Bewegungssimilarität führt. Um dies zu verbessern, schlagen wir SLIC vor, eine clustergestützte selbstüberwachte kontrastive Lernmethode für Videos mit menschlichen Aktivitäten. Unser wesentlicher Beitrag besteht darin, dass wir die traditionelle interne Positiv-Sampling-Methode innerhalb eines Videos durch iteratives Clustering verbessern, um ähnliche Videoinstanzen zusammenzufassen. Dies ermöglicht es unserer Methode, Pseudolabels aus den Clusterzuordnungen zu nutzen, um schwierigere Positive und Negative zu sampeln. SLIC übertrifft die besten bisherigen Video-Retrieval-Baselines um +15,4 % im Top-1 Recall auf UCF101 und um +5,7 % beim direkten Transfer auf HMDB51. Mit end-to-end Feinabstimmung für die Aktionserkennung erreicht SLIC eine Top-1 Genauigkeit von 83,2 % (+0,8 %) auf UCF101 und 54,5 % (+1,6 %) auf HMDB51. Nach selbstüberwachtem Vortraining auf Kinetics400 ist SLIC auch wettbewerbsfähig mit dem aktuellen Stand der Technik in der Aktionserkennung.