HyperAIHyperAI
vor 2 Monaten

Few-Shot-Videosklassifizierung durch zeitliche Ausrichtung

Kaidi Cao; Jingwei Ji; Zhangjie Cao; Chien-Yi Chang; Juan Carlos Niebles
Few-Shot-Videosklassifizierung durch zeitliche Ausrichtung
Abstract

Es gibt ein wachsendes Interesse daran, ein Modell zu trainieren, das in der Lage ist, neue Klassen mit nur wenigen etikettierten Beispielen zu erkennen. In dieser Arbeit schlagen wir das Temporal Alignment Modul (TAM) vor, einen neuen Few-Shot-Lernrahmen, der lernen kann, eine bisher unbekannte Videosequenz zu klassifizieren. Während die meisten bisherigen Arbeiten langfristige zeitliche Ordnungsinformationen vernachlässigen, nutzt unser vorgeschlagenes Modell diese Informationen in Videodaten explizit durch zeitliche Ausrichtung. Dies führt zu einer starken Dateneffizienz im Few-Shot-Lernen. Konkret berechnet TAM den Abstandswert des Abfragevideos zu den Proxies neuer Klassen, indem es die pro Frame gemessenen Abstände entlang seines Ausrichtungspfades durchschnittlich aggregiert. Wir führen eine kontinuierliche Relaxation in TAM ein, sodass das Modell auf end-to-end-Basis direkt zur Optimierung des Few-Shot-Lernziels gelernt werden kann. Wir evaluieren TAM anhand zweier anspruchsvoller realweltlicher Datensätze, Kinetics und Something-Something-V2, und zeigen, dass unser Modell bei der Few-Shot-Videoklassifikation im Vergleich zu einer Vielzahl von wettbewerbsfähigen Baselines erhebliche Verbesserungen erreicht.

Few-Shot-Videosklassifizierung durch zeitliche Ausrichtung | Neueste Forschungsarbeiten | HyperAI