HyperAIHyperAI
vor 2 Monaten

Lernverfahren für die Mehrgranularitätskorrespondenz aus langfristigen rauschigen Videos

Lin, Yijie ; Zhang, Jie ; Huang, Zhenyu ; Liu, Jia ; Wen, Zujie ; Peng, Xi
Lernverfahren für die Mehrgranularitätskorrespondenz aus langfristigen rauschigen Videos
Abstract

Bestehende Video-Sprach-Studien konzentrieren sich hauptsächlich auf das Lernen kurzer Videoclips, wobei langfristige zeitliche Abhängigkeiten aufgrund der übermäßig hohen Rechenkosten für die Modellierung langer Videos selten untersucht werden. Um dieses Problem zu lösen, bietet sich eine mögliche Lösung an, nämlich das Lernen der Korrespondenz zwischen Videoclips und Untertiteln. Dies führt jedoch unvermeidlich zu dem Problem der multiplen granularen fehlerhaften Korrespondenz (MNC). Genauer gesagt bezieht sich MNC auf die Fehljustierung von Clip-Untertitel-Zuordnungen (grobkörnig) und Frame-Wort-Zuordnungen (feinkörnig), was die zeitliche Lernfähigkeit und das Verständnis von Videos behindert. In dieser Arbeit schlagen wir NOise Robust Temporal Optimal traNsport (Norton) vor, das MNC in einem einheitlichen Optimal Transport (OT)-Framework behandelt. Kurz gesagt, verwendet Norton Video-Paragraphen- und Clip-Untertitel-Kontrastverluste, um langfristige Abhängigkeiten basierend auf OT zu erfassen. Um grobkörnige Fehljustierungen im Video-Paragraphen-Kontrast zu bewältigen, filtert Norton irrelevante Clips und Untertitel durch einen ausrichtbaren Prompt-Bucket und justiert asynchrone Clip-Untertitel-Paare basierend auf dem Transportabstand neu. Um feinkörnige Fehljustierungen zu adressieren, integriert Norton einen Soft-Maximum-Operator, um wichtige Worte und Schlüsselbilder zu identifizieren. Zudem nutzt Norton das Potential fehlerhafter negativer Beispiele im Clip-Untertitel-Kontrast aus, indem es das Ausrichtungsziel durch die OT-Zuordnung korrigiert, um eine präzise zeitliche Modellierung sicherzustellen. Ausführliche Experimente zur Videoretrieval, VideoQA und Aktionssegmentierung bestätigen die Effektivität unserer Methode. Der Quellcode ist unter https://lin-yijie.github.io/projects/Norton verfügbar.

Lernverfahren für die Mehrgranularitätskorrespondenz aus langfristigen rauschigen Videos | Neueste Forschungsarbeiten | HyperAI