HyperAIHyperAI
vor 11 Tagen

DropMAE: Lernen von Darstellungen mittels maskierten Autoencoder mit räumlich-orientiertem Dropout für zeitliche Matching-Aufgaben

Qiangqiang Wu, Tianyu Yang, Ziquan Liu, Wei Lin, Baoyuan Wu, Antoni B. Chan
DropMAE: Lernen von Darstellungen mittels maskierten Autoencoder mit räumlich-orientiertem Dropout für zeitliche Matching-Aufgaben
Abstract

Diese Arbeit untersucht die vorabtrainierte Verwendung von Masked Autoencoders (MAE) für Videos in verschiedenen zeitlichen Matching-basierten Anwendungen, darunter objektbasierte Verfolgungsaufgaben wie Video-Objekt-Tracking (VOT) und Video-Objekt-Segmentierung (VOS), selbstüberwachtes Lernen von visuellen Korrespondenzen, dichte Verfolgungsaufgaben wie die Schätzung von optischem Fluss und langfristiges Punkt-Tracking sowie 3D-Punktwolken-Tracking. Insbesondere erforscht unsere Arbeit, wie eine allgemeine Darstellung entwickelt werden kann, um die Fähigkeit zum zeitlichen Matching in verschiedenen nachgeschalteten Verfolgungsaufgaben zu verbessern. Um dies zu erreichen, stellen wir fest, dass eine einfache Erweiterung des MAE – bei der zufällig Bildausschnitte in Videos maskiert und die Pixel der einzelnen Frames rekonstruiert werden – stark auf räumliche Hinweise angewiesen ist und dabei zeitliche Beziehungen bei der Rekonstruktion vernachlässigt, was zu suboptimalen zeitlichen Matching-Darstellungen führt. Um dies zu mildern, schlagen wir DropMAE vor, welches adaptiv räumliche Aufmerksamkeit (spatial-attention) während der Frame-Rekonstruktion abschaltet, um die Lernfähigkeit zeitlicher Korrespondenzen in Videos zu fördern. Mit DropMAE erzielen wir mehrere wichtige Erkenntnisse: 1) DropMAE ist ein leistungsfähiger und effizienter Lerner für zeitliche Matching-Aufgaben und erreicht bei nachgeschalteten Matching-Aufgaben bessere Feinabstimmungsergebnisse als der auf ImageNet basierende MAE, wobei die Vorabtrainingsgeschwindigkeit um das Zweifache beschleunigt wird. 2) DropMAE ist für unterschiedliche Verfolgungsaufgaben wirksam, einschließlich objektbasierter Matching-Aufgaben wie VOT und VOS, dichter Verfolgungsaufgaben wie optischem Fluss und Tracking any point (TAP), sowie sogar 3D-Verfolgung in der unterschiedlichen Modalität von Punktwolken-Daten. Da bislang keine solchen Ansätze existieren, entwickeln wir ViT-basierte Tracker für verschiedene nachgeschaltete Verfolgungsaufgaben. Unser vorabtrainiertes DropMAE-Modell kann direkt in diese ViT-basierten Tracker geladen und ohne weitere Anpassungen feinabgestimmt werden. Experimente an sechs nachgeschalteten Verfolgungsaufgaben belegen die Wirksamkeit von DropMAE als allgemeine vorabtrainierte Darstellung für vielfältige Verfolgungsaufgaben.

DropMAE: Lernen von Darstellungen mittels maskierten Autoencoder mit räumlich-orientiertem Dropout für zeitliche Matching-Aufgaben | Neueste Forschungsarbeiten | HyperAI