Shuffle and Attend: Video-Domänenanpassung

Wir behandeln das Problem der Domänenanpassung in Videos für die Aufgabe der menschlichen Aktionserkennung. Angelehnt an die Domänenanpassung auf Bildern können wir Videoanpassung erreichen, indem wir die Merkmale von Frames oder Clips aus Quell- und Zielvideos ausrichten. Die gleichmäßige Ausrichtung aller Clips ist jedoch suboptimal, da nicht alle Clips für die Aufgabe informativ sind. Als erste Neuheit schlagen wir eine Aufmerksamkeitsmechanik vor, die sich auf diskriminativere Clips konzentriert und direkt für eine Videoebene (im Gegensatz zu Clip-Ebene) Ausrichtung optimiert. Da die Hintergründe zwischen Quell- und Zieldomäne oft stark unterschiedlich sind, passt sich das durch Hintergrundstörungen in der Quelldomäne beeinträchtigte Modell schlecht an Videos der Zieldomäne an. Um dies zu mildern, schlagen wir als zweite Neuheit vor, die Vorhersage der Clip-Reihenfolge als Hilfsaufgabe zu nutzen. Die Loss-Funktion für die Clip-Reihenfolgevorhersage, kombiniert mit einer domänenadversariellen Loss-Funktion, fördert die Lernung von Darstellungen, die sich auf die Menschen und Objekte konzentrieren, die in den Aktionen beteiligt sind, anstatt auf die wenig informativen und stark voneinander abweichenden Hintergründe. Wir zeigen empirisch, dass beide Komponenten positiv zur Anpassungsleistung beitragen. Wir erzielen state-of-the-art Ergebnisse auf zwei von drei anspruchsvollen öffentlichen Benchmarks, zwei basierend auf den UCF- und HMDB-Datenbanken sowie einer auf den Kinetics- zu NEC-Drone-Daten. Zudem stützen wir unsere Intuitionen und Ergebnisse durch qualitative Analysen.