HyperAIHyperAI

Command Palette

Search for a command to run...

Orthogonale zeitliche Interpolation für Zero-Shot-Videounterkennung

Yan Zhu Junbao Zhuo* Bin Ma Jiajia Geng Xiaoming Wei Xiaolin Wei Shuhui Wang

Zusammenfassung

Zero-Shot-Videounterkennung (ZSVR) ist eine Aufgabe, die darauf abzielt, Videokategorien zu erkennen, die während des Modelltrainings nicht gesehen wurden. Kürzlich haben visuelle-sprachliche Modelle (VLMs), die auf großen Bild-Text-Paaren vortrainiert wurden, eine beeindruckende Übertragbarkeit für ZSVR gezeigt. Um VLMs auf den Videobereich anwendbar zu machen, verwenden existierende Methoden oft ein zusätzliches zeitliches Lernmodul nach dem bildbasierten Encoder, um die zeitlichen Beziehungen zwischen Videoframes zu lernen. Leider beobachten wir bei Videos aus unbekannten Kategorien ein ungewöhnliches Phänomen: Das Modell, das räumlich-zeitliche Merkmale verwendet, performt erheblich schlechter als das Modell, das das zeitliche Lernmodul entfernt und nur räumliche Merkmale verwendet. Wir vermuten, dass eine unangemessene zeitliche Modellierung des Videos die räumlichen Merkmale des Videos stört. Um unsere Hypothese zu überprüfen, schlagen wir eine Merkmalsfaktorisierung vor, um das orthogonale zeitliche Merkmal des Videos beizubehalten und Interpolation zur Konstruktion eines verfeinerten räumlich-zeitlichen Merkmals zu verwenden. Das Modell, das angemessen verfeinerte räumlich-zeitliche Merkmale verwendet, performt besser als das Modell, das nur räumliche Merkmale verwendet. Dies bestätigt die Effektivität des orthogonalen zeitlichen Merkmals für die ZSVR-Aufgabe. Daher wurde ein Orthogonales Zeitliches Interpolationsmodul entwickelt, um während des Trainings ein besseres verfeinertes räumlich-zeitliches Video-Merkmal zu lernen. Darüber hinaus wird ein Matching-Loss eingeführt, um die Qualität des orthogonalen zeitlichen Merkmals zu verbessern. Wir schlagen ein Modell namens OTI (Orthogonal Temporal Interpolation) für ZSVR vor, das orthogonale zeitliche Interpolation und den Matching-Loss basierend auf VLMs nutzt. Die ZSVR-Akkuratenzen auf gängigen Videodatensätzen (wie Kinetics-600, UCF101 und HMDB51) zeigen deutlich, dass OTI den bisher besten Verfahren klar überlegen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp