vor 17 Tagen

Lernen impliziter zeitlicher Alignment für Few-shot-Videoklassifikation

Songyang Zhang, Jiale Zhou, Xuming He

Abstract

Few-shot Video-Klassifikation zielt darauf ab, neue Videokategorien mit nur wenigen beschrifteten Beispielen zu lernen und damit die Belastung durch kostspielige Annotation in realen Anwendungen zu verringern. Insbesondere ist es jedoch herausfordernd, in diesem Kontext eine klasseninvariante räumlich-zeitliche Darstellung zu erlernen. Um diesem Problem zu begegnen, schlagen wir in dieser Arbeit eine neuartige, auf Matching basierende Few-shot-Lernstrategie für Videosequenzen vor. Unser zentrales Konzept besteht darin, eine implizite zeitliche Alignment-Mechanismus für Paare von Videos einzuführen, der die Ähnlichkeit zwischen ihnen präzise und robust schätzen kann. Zudem entwerfen wir ein effektives Kontext-Encoding-Modul, das räumliche und kanalbasierte Merkmalskontextinformationen integriert, wodurch eine bessere Modellierung der innerhalb der Klasse auftretenden Variationen ermöglicht wird. Zur Trainingsdurchführung entwickeln wir eine Multi-Task-Verlustfunktion zur Lernung von Video-Matching, was zu allgemeineren Video-Features führt. Umfangreiche experimentelle Ergebnisse auf zwei anspruchsvollen Benchmarks zeigen, dass unsere Methode sowohl auf SomethingSomething-V2 im Vergleich zu vorherigen Ansätzen mit einer deutlichen Lücke als auch auf Kinetics konkurrenzfähige Ergebnisse erzielt.