HyperAIHyperAI
vor 13 Tagen

Aktionssegmentierung mit gemeinsamer selbstüberwachter zeitlicher Domänenanpassung

Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira
Aktionssegmentierung mit gemeinsamer selbstüberwachter zeitlicher Domänenanpassung
Abstract

Trotz der jüngsten Fortschritte bei vollständig überwachten Verfahren zur Aktionssegmentierung bleibt die Leistung noch immer nicht vollständig zufriedenstellend. Eine zentrale Herausforderung stellt das Problem räumlich-zeitlicher Variationen dar (z. B. können verschiedene Personen dieselbe Aktivität auf unterschiedliche Weise ausführen). Um dieses Problem anzugehen, nutzen wir unbeschriftete Videos, indem wir die Aufgabe der Aktionssegmentierung neu formulieren als ein Cross-Domain-Problem, bei dem eine Domänenabweichung durch räumlich-zeitliche Variationen verursacht wird. Um diese Abweichung zu verringern, schlagen wir Self-Supervised Temporal Domain Adaptation (SSTDA) vor, das zwei selbstüberwachte Hilfsaufgaben (binäre und sequenzielle Domänenvorhersage) enthält, um gemeinsam die Merkmalsräume über verschiedene Domänen hinweg auszurichten, die sowohl lokale als auch globale zeitliche Dynamiken erfassen. Dadurch erreicht SSTDA eine bessere Leistung als andere Domain-Adaptation-(DA)-Ansätze. Auf drei anspruchsvollen Benchmark-Datensätzen (GTEA, 50Salads und Breakfast) übertrifft SSTDA die derzeit beste Methode deutlich (z. B. bei der F1@25-Score: von 59,6 % auf 69,1 % für Breakfast, von 73,4 % auf 81,5 % für 50Salads und von 83,6 % auf 89,1 % für GTEA) und benötigt lediglich 65 % der beschrifteten Trainingsdaten, um vergleichbare Ergebnisse zu erzielen. Dies belegt die Wirksamkeit der Anpassung an unbeschriftete Zielvideos unter Berücksichtigung von Variationen. Der Quellcode ist unter https://github.com/cmhungsteve/SSTDA verfügbar.

Aktionssegmentierung mit gemeinsamer selbstüberwachter zeitlicher Domänenanpassung | Neueste Forschungsarbeiten | HyperAI