HyperAIHyperAI
vor 11 Tagen

Neuüberlegung der Zero-shot-Video-Klassifikation: End-to-End-Training für realistische Anwendungen

Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof Chalupka
Neuüberlegung der Zero-shot-Video-Klassifikation: End-to-End-Training für realistische Anwendungen
Abstract

Auf großen Datensätzen trainiert, kann tiefes Lernen (DL) Videos mit hoher Genauigkeit in Hunderte verschiedener Klassen klassifizieren. Allerdings sind Videodaten aufgrund der Annotierungskosten teuer. Zero-Shot-Lernen (ZSL) bietet eine Lösung für dieses Problem. ZSL trainiert ein Modell einmal und verallgemeinert auf neue Aufgaben, deren Klassen im Trainingsdatensatz nicht enthalten sind. Wir stellen den ersten end-to-end-Algorithmus für ZSL in der Videoklassifikation vor. Unser Trainingsverfahren basiert auf Erkenntnissen aus der jüngsten Literatur zur Videoklassifikation und nutzt einen trainierbaren 3D-CNN, um visuelle Merkmale zu lernen. Dies unterscheidet sich von früheren Ansätzen im Bereich des Video-ZSL, die vortrainierte Merkmalsextraktoren verwenden. Außerdem erweitern wir das aktuelle Benchmarking-Paradigma: Bisherige Techniken zielen darauf ab, die Testaufgabe bereits während des Trainings als unbekannt zu halten, erreichen dies jedoch nicht vollständig. Wir fördern eine Domänenverschiebung zwischen Trainings- und Testdaten und verbieten die Anpassung eines ZSL-Modells an ein bestimmtes Testdatenset. Wir überbieten den Stand der Technik deutlich. Unser Code, das Evaluierungsverfahren und die Modellgewichte sind unter github.com/bbrattoli/ZeroShotVideoClassification verfügbar.

Neuüberlegung der Zero-shot-Video-Klassifikation: End-to-End-Training für realistische Anwendungen | Neueste Forschungsarbeiten | HyperAI