TARN: Temporale Aufmerksamkeitsbeziehungsnetzwerk für Few-Shot- und Zero-Shot-Aktionserkennung

In dieser Arbeit schlagen wir ein neues Temporal Attentive Relation Network (TARN) für die Probleme der Few-Shot- und Zero-Shot-Aktionserkennung vor. Im Zentrum unseres Netzwerks steht ein Meta-Lernansatz, der darin trainiert wird, Darstellungen variabler zeitlicher Länge zu vergleichen, sei es zwei Videos unterschiedlicher Länge (im Fall der Few-Shot-Aktionserkennung) oder ein Video und eine semantische Darstellung wie ein Wortvektor (im Fall der Zero-Shot-Aktionserkennung). Im Gegensatz zu anderen Arbeiten im Bereich der Few-Shot- und Zero-Shot-Aktionserkennung a) nutzen wir Aufmerksamkeitsmechanismen, um eine zeitliche Ausrichtung durchzuführen, und b) lernen wir eine tiefgreifende Distanzmaßnahme auf den ausgerichteten Darstellungen auf Segmentebene des Videos. Wir verwenden ein episodenbasiertes Trainingsverfahren und trainieren unser Netzwerk in einem end-to-end-Prozess. Die vorgeschlagene Methode erfordert keine Feinabstimmung im Zielbereich oder das Wartung zusätzlicher Darstellungen, wie dies bei Speicher-Netzwerken der Fall ist. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Architektur den aktuellen Stand der Technik in der Few-Shot-Aktionserkennung übertrifft und wettbewerbsfähige Ergebnisse in der Zero-Shot-Aktionserkennung erzielt.