vor 11 Tagen

Aktionssegmentierung mit gemischter zeitlicher Domänanpassung

Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib

Abstract

Der wesentliche Fortschritt bei der Aktionssegmentierung stammt aus dicht annotierten Daten für vollständig überwachtes Lernen. Da die manuelle Annotation von Aktionen auf Frame-Ebene zeitaufwendig und herausfordernd ist, schlagen wir vor, Hilfsdaten in Form von unbeschrifteten Videos auszunutzen, die viel einfacher zu beschaffen sind, indem wir dieses Problem als Domain-Adaptation-(DA)-Problem formulieren. Obwohl in den letzten Jahren zahlreiche DA-Techniken vorgeschlagen wurden, wurden die meisten ausschließlich für den räumlichen Bereich entwickelt. Daher stellen wir Mixed Temporal Domain Adaptation (MTDA) vor, um sowohl die Frame- als auch die Video-Ebene der eingebetteten Merkmalsräume über verschiedene Domänen hinweg gemeinsam auszurichten. Darüber hinaus integrieren wir eine Domänen-Attention-Mechanismus, um sich auf die Ausrichtung der Frame-Ebene mit höherer Domänen-Diskrepanz zu konzentrieren, was eine effektivere Domain-Adaptation ermöglicht. Schließlich evaluieren wir unsere vorgeschlagenen Methoden auf drei anspruchsvollen Datensätzen (GTEA, 50Salads und Breakfast) und bestätigen, dass MTDA die derzeitigen State-of-the-Art-Methoden auf allen drei Datensätzen mit deutlichen Vorsprüngen übertrifft (z. B. 6,4 % Verbesserung bei F1@50 und 6,8 % Verbesserung bei der Edit-Score für GTEA).