vor 11 Tagen

Neuüberlegung der Zero-shot-Video-Klassifikation: End-to-End-Training für realistische Anwendungen

Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof Chalupka

Abstract

Auf großen Datensätzen trainiert, kann tiefes Lernen (DL) Videos mit hoher Genauigkeit in Hunderte verschiedener Klassen klassifizieren. Allerdings sind Videodaten aufgrund der Annotierungskosten teuer. Zero-Shot-Lernen (ZSL) bietet eine Lösung für dieses Problem. ZSL trainiert ein Modell einmal und verallgemeinert auf neue Aufgaben, deren Klassen im Trainingsdatensatz nicht enthalten sind. Wir stellen den ersten end-to-end-Algorithmus für ZSL in der Videoklassifikation vor. Unser Trainingsverfahren basiert auf Erkenntnissen aus der jüngsten Literatur zur Videoklassifikation und nutzt einen trainierbaren 3D-CNN, um visuelle Merkmale zu lernen. Dies unterscheidet sich von früheren Ansätzen im Bereich des Video-ZSL, die vortrainierte Merkmalsextraktoren verwenden. Außerdem erweitern wir das aktuelle Benchmarking-Paradigma: Bisherige Techniken zielen darauf ab, die Testaufgabe bereits während des Trainings als unbekannt zu halten, erreichen dies jedoch nicht vollständig. Wir fördern eine Domänenverschiebung zwischen Trainings- und Testdaten und verbieten die Anpassung eines ZSL-Modells an ein bestimmtes Testdatenset. Wir überbieten den Stand der Technik deutlich. Unser Code, das Evaluierungsverfahren und die Modellgewichte sind unter github.com/bbrattoli/ZeroShotVideoClassification verfügbar.