HyperAIHyperAI
vor einem Monat

Temporale Aufmerksamkeitsausrichtung für die large-scale Video-Domain-Adaptierung

Min-Hung Chen; Zsolt Kira; Ghassan AlRegib; Jaekwon Yoo; Ruxin Chen; Jian Zheng
Temporale Aufmerksamkeitsausrichtung für die large-scale Video-Domain-Adaptierung
Abstract

Obwohl in den letzten Jahren verschiedene bildbasierte Domänenanpassungstechniken (DA) vorgeschlagen wurden, ist der Domänenunterschied in Videos noch immer wenig erforscht. Die meisten früheren Arbeiten bewerten die Leistung nur an kleineren Datensätzen, die bereits gesättigt sind. Deshalb schlagen wir erstens zwei große Video-DA-Datensätze mit deutlich größerem Domänenunterschied vor: UCF-HMDB_full und Kinetics-Gameplay. Zweitens untersuchen wir verschiedene DA-Integrationsmethoden für Videos und zeigen, dass die gleichzeitige Anpassung und das Lernen von zeitlichen Dynamiken effektive Ausrichtung ermöglichen, selbst ohne komplizierte DA-Methoden. Schließlich präsentieren wir das Temporale Aufmerksamkeits-feindliche Anpassungsnetzwerk (TA3N), das explizit auf die zeitlichen Dynamiken fokussiert, indem es den Domänenunterschied nutzt, um eine effektivere Domänenanpassung zu erreichen. Dies führt zu einem Stand-der-Technik-Ergebnis auf vier Video-DA-Datensätzen (z.B. ein Genauigkeitsgewinn von 7,9 % über "Nur Quelle" von 73,9 % auf 81,8 % bei "HMDB --> UCF" und ein Gewinn von 10,3 % bei "Kinetics --> Gameplay"). Der Code und die Daten werden unter http://github.com/cmhungsteve/TA3N veröffentlicht.