MAR: Masked Autoencoder für eine effiziente Aktionserkennung

Standardansätze für die Videoerkennung arbeiten üblicherweise auf den vollständigen Eingabevideos, was aufgrund der weit verbreiteten räumlich-zeitlichen Redundanz in Videos ineffizient ist. Neuere Fortschritte im Bereich des maskierten Video-Modellierens, beispielsweise VideoMAE, haben gezeigt, dass herkömmliche Vision Transformers (ViT) in der Lage sind, räumlich-zeitliche Kontexte zu ergänzen, wenn nur begrenzte visuelle Inhalte zur Verfügung stehen. Darauf aufbauend schlagen wir Masked Action Recognition (MAR) vor, das die redundante Berechnung reduziert, indem ein Anteil der Patch-Teile verworfen und nur ein Teil des Videos verarbeitet wird. MAR besteht aus zwei unverzichtbaren Komponenten: Cell-Running-Masking und Brücken-Klassifikator. Insbesondere wird das Cell-Running-Masking eingeführt, um die räumlich-zeitlichen Korrelationen in Videos zu bewahren und dem ViT zu ermöglichen, Details jenseits der sichtbaren Patch-Teile leichter wahrzunehmen. Dadurch werden die Patch-Teile an derselben räumlichen Position abwechselnd beobachtet, was eine einfache Rekonstruktion ermöglicht. Zudem stellen wir fest, dass obwohl die teilweise beobachteten Merkmale semantisch klare, unsichtbare Patch-Teile rekonstruieren können, sie nicht zu einer genauen Klassifikation führen. Um dies zu beheben, wird ein Brücken-Klassifikator vorgeschlagen, der die semantische Lücke zwischen den durch den ViT kodierten Merkmalen für die Rekonstruktion und den spezialisierten Merkmalen für die Klassifikation schließt. Unser vorgeschlagenes MAR reduziert die Berechnungskosten des ViT um 53 %, und umfangreiche Experimente zeigen, dass MAR stets bestehende ViT-Modelle mit einer bemerkenswerten Lücke übertrifft. Insbesondere finden wir, dass ein durch MAR trainiertes ViT-Large sowohl auf den Datensätzen Kinetics-400 als auch Something-Something v2 deutlich besser abschneidet als ein standardmäßig trainiertes ViT-Huge, wobei unsere Berechnungsbelastung für ViT-Large nur 14,5 % der des ViT-Huge beträgt.