Command Palette
Search for a command to run...
Unüberwachte Video-Domain-Adaptation mit maskiertem Vortrainieren und kooperativem Selbsttraining
Unüberwachte Video-Domain-Adaptation mit maskiertem Vortrainieren und kooperativem Selbsttraining
Arun Reddy William Paul Corban Rivera Ketul Shah Celso M. de Melo Rama Chellappa
Zusammenfassung
In dieser Arbeit behandeln wir das Problem der unsupervisierten Domänenanpassung (UDA) für die Video-Aktionserkennung. Unser Ansatz, den wir UNITE nennen, nutzt ein Bild-Teacher-Modell, um ein Video-Student-Modell an die Ziel-Domäne anzupassen. Zunächst setzt UNITE eine selbstüberwachte Vortrainierung ein, um die Lernfähigkeit diskriminativer Merkmale in Ziel-Domänen-Videos mittels eines teacher-gesteuerten maskierten Distillation-Objektivs zu fördern. Anschließend führen wir ein Selbst-Training an maskierten Ziel-Daten durch, wobei das Video-Student-Modell und das Bild-Teacher-Modell gemeinsam genutzt werden, um verbesserte Pseudolabels für unlabeled Ziel-Videos zu generieren. Unser Selbst-Training-Prozess nutzt erfolgreich die Stärken beider Modelle, um eine starke Übertragungsleistung über Domänen hinweg zu erreichen. Wir evaluieren unseren Ansatz an mehreren Benchmark-Datenmengen für Video-Domänenanpassung und beobachten signifikante Verbesserungen gegenüber zuvor veröffentlichten Ergebnissen.