HyperAIHyperAI
vor 19 Tagen

ActionCLIP: Ein neuer Ansatz für die Video-Action-Erkennung

Mengmeng Wang, Jiazheng Xing, Yong Liu
ActionCLIP: Ein neuer Ansatz für die Video-Action-Erkennung
Abstract

Der klassische Ansatz zur Aktionserkennung in Videos verlangt von einem neuronalen Modell, eine klassische und standardisierte 1-aus-N-Mehrheitsabstimmungsaufgabe zu lösen. Diese Modelle werden darauf trainiert, eine feste Menge vordefinierter Kategorien vorherzusagen, wodurch ihre Übertragbarkeit auf neue Datensätze mit unbekannten Konzepten eingeschränkt ist. In diesem Paper präsentieren wir eine neue Perspektive auf die Aktionserkennung, indem wir den semantischen Inhalt von Label-Texten stärker berücksichtigen, anstatt diese lediglich in Zahlen abzubilden. Konkret modellieren wir diese Aufgabe als ein Video-Text-Übereinstimmungsproblem innerhalb eines multimodalen Lernrahmens, wodurch die Video-Repräsentation durch zusätzliche semantische Sprachsupervision gestärkt wird und unser Modell die Fähigkeit zur Zero-Shot-Aktionserkennung erhält, ohne weitere gelabelte Daten oder Parameteranpassungen zu benötigen. Darüber hinaus, um die begrenzte Verfügbarkeit von Label-Texten zu kompensieren und die enorme Menge an Web-Daten effizient zu nutzen, schlagen wir ein neues Paradigma vor, das auf diesem multimodalen Lernrahmen basiert und als „Pre-train, Prompt und Fine-tune“ bezeichnet wird. Dieses Paradigma lernt zunächst mächtige Repräsentationen durch Pre-training auf einer großen Menge an Web-Bild-Text- oder Video-Text-Daten. Anschließend wird die Aktionserkennungsaufgabe durch Prompt-Engineering so gestaltet, dass sie der Pre-training-Aufgabe ähnlicher wird. Schließlich erfolgt eine end-to-end-Finetuning auf Ziel-Datensätzen, um eine hohe Leistung zu erzielen. Wir stellen eine konkrete Umsetzung dieses neuen Paradigmas vor, namens ActionCLIP, das nicht nur eine überlegene und flexible Zero-Shot- und Few-Shot-Übertragungsfähigkeit aufweist, sondern auch eine Spitzenleistung bei allgemeinen Aktionserkennungsaufgaben erzielt – mit einer Top-1-Accuracy von 83,8 % auf Kinetics-400, wobei ein ViT-B/16 als Backbone verwendet wird. Der Quellcode ist unter https://github.com/sallymmx/ActionCLIP.git verfügbar.