Aktionssegmentierung mit gemischter zeitlicher Domänanpassung

Der wesentliche Fortschritt bei der Aktionssegmentierung stammt aus dicht annotierten Daten für vollständig überwachtes Lernen. Da die manuelle Annotation von Aktionen auf Frame-Ebene zeitaufwendig und herausfordernd ist, schlagen wir vor, Hilfsdaten in Form von unbeschrifteten Videos auszunutzen, die viel einfacher zu beschaffen sind, indem wir dieses Problem als Domain-Adaptation-(DA)-Problem formulieren. Obwohl in den letzten Jahren zahlreiche DA-Techniken vorgeschlagen wurden, wurden die meisten ausschließlich für den räumlichen Bereich entwickelt. Daher stellen wir Mixed Temporal Domain Adaptation (MTDA) vor, um sowohl die Frame- als auch die Video-Ebene der eingebetteten Merkmalsräume über verschiedene Domänen hinweg gemeinsam auszurichten. Darüber hinaus integrieren wir eine Domänen-Attention-Mechanismus, um sich auf die Ausrichtung der Frame-Ebene mit höherer Domänen-Diskrepanz zu konzentrieren, was eine effektivere Domain-Adaptation ermöglicht. Schließlich evaluieren wir unsere vorgeschlagenen Methoden auf drei anspruchsvollen Datensätzen (GTEA, 50Salads und Breakfast) und bestätigen, dass MTDA die derzeitigen State-of-the-Art-Methoden auf allen drei Datensätzen mit deutlichen Vorsprüngen übertrifft (z. B. 6,4 % Verbesserung bei F1@50 und 6,8 % Verbesserung bei der Edit-Score für GTEA).