HyperAIHyperAI
vor 8 Tagen

Unüberwachte Video-Domain-Adaptation mit maskiertem Vortrainieren und kooperativem Selbsttraining

Arun Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa
Unüberwachte Video-Domain-Adaptation mit maskiertem Vortrainieren und kooperativem Selbsttraining
Abstract

In dieser Arbeit behandeln wir das Problem der unsupervisierten Domänenanpassung (UDA) für die Video-Aktionserkennung. Unser Ansatz, den wir UNITE nennen, nutzt ein Bild-Teacher-Modell, um ein Video-Student-Modell an die Ziel-Domäne anzupassen. Zunächst setzt UNITE eine selbstüberwachte Vortrainierung ein, um die Lernfähigkeit diskriminativer Merkmale in Ziel-Domänen-Videos mittels eines teacher-gesteuerten maskierten Distillation-Objektivs zu fördern. Anschließend führen wir ein Selbst-Training an maskierten Ziel-Daten durch, wobei das Video-Student-Modell und das Bild-Teacher-Modell gemeinsam genutzt werden, um verbesserte Pseudolabels für unlabeled Ziel-Videos zu generieren. Unser Selbst-Training-Prozess nutzt erfolgreich die Stärken beider Modelle, um eine starke Übertragungsleistung über Domänen hinweg zu erreichen. Wir evaluieren unseren Ansatz an mehreren Benchmark-Datenmengen für Video-Domänenanpassung und beobachten signifikante Verbesserungen gegenüber zuvor veröffentlichten Ergebnissen.