vor 2 Monaten

Orthogonale zeitliche Interpolation für Zero-Shot-Videounterkennung

Yan Zhu; Junbao Zhuo; Bin Ma; Jiajia Geng; Xiaoming Wei; Xiaolin Wei; Shuhui Wang

Abstract

Zero-Shot-Videounterkennung (ZSVR) ist eine Aufgabe, die darauf abzielt, Videokategorien zu erkennen, die während des Modelltrainings nicht gesehen wurden. Kürzlich haben visuelle-sprachliche Modelle (VLMs), die auf großen Bild-Text-Paaren vortrainiert wurden, eine beeindruckende Übertragbarkeit für ZSVR gezeigt. Um VLMs auf den Videobereich anwendbar zu machen, verwenden existierende Methoden oft ein zusätzliches zeitliches Lernmodul nach dem bildbasierten Encoder, um die zeitlichen Beziehungen zwischen Videoframes zu lernen. Leider beobachten wir bei Videos aus unbekannten Kategorien ein ungewöhnliches Phänomen: Das Modell, das räumlich-zeitliche Merkmale verwendet, performt erheblich schlechter als das Modell, das das zeitliche Lernmodul entfernt und nur räumliche Merkmale verwendet. Wir vermuten, dass eine unangemessene zeitliche Modellierung des Videos die räumlichen Merkmale des Videos stört. Um unsere Hypothese zu überprüfen, schlagen wir eine Merkmalsfaktorisierung vor, um das orthogonale zeitliche Merkmal des Videos beizubehalten und Interpolation zur Konstruktion eines verfeinerten räumlich-zeitlichen Merkmals zu verwenden. Das Modell, das angemessen verfeinerte räumlich-zeitliche Merkmale verwendet, performt besser als das Modell, das nur räumliche Merkmale verwendet. Dies bestätigt die Effektivität des orthogonalen zeitlichen Merkmals für die ZSVR-Aufgabe. Daher wurde ein Orthogonales Zeitliches Interpolationsmodul entwickelt, um während des Trainings ein besseres verfeinertes räumlich-zeitliches Video-Merkmal zu lernen. Darüber hinaus wird ein Matching-Loss eingeführt, um die Qualität des orthogonalen zeitlichen Merkmals zu verbessern. Wir schlagen ein Modell namens OTI (Orthogonal Temporal Interpolation) für ZSVR vor, das orthogonale zeitliche Interpolation und den Matching-Loss basierend auf VLMs nutzt. Die ZSVR-Akkuratenzen auf gängigen Videodatensätzen (wie Kinetics-600, UCF101 und HMDB51) zeigen deutlich, dass OTI den bisher besten Verfahren klar überlegen ist.