HyperAIHyperAI
vor 17 Tagen

Text-Video-Retrieval mit entkoppelter Darstellungslernung

Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, Xian-Sheng Hua
Text-Video-Retrieval mit entkoppelter Darstellungslernung
Abstract

Die Kreuzmodalität-Interaktion ist eine entscheidende Komponente im Text-Video-Abfrage (Text-Video Retrieval, TVR), dennoch wurde bisher wenig untersucht, wie verschiedene Einflussfaktoren bei der Berechnung der Interaktion die Leistung beeinflussen. In dieser Arbeit untersuchen wir zunächst das Interaktionsparadigma eingehend und stellen fest, dass seine Berechnung in zwei Terme zerlegt werden kann: die Interaktionsinhalte auf unterschiedlichen Granularitätsniveaus sowie die Matching-Funktion, die Paare mit gleicher Semantik unterscheidet. Zudem beobachten wir, dass die Verwendung von Single-Vector-Repräsentationen und impliziten, starken Funktionen die Optimierung erheblich behindern. Auf Basis dieser Erkenntnisse schlagen wir einen entkoppelten Rahmen vor, um eine sequenzielle und hierarchische Repräsentation zu erfassen. Erstens berücksichtigen wir die natürliche sequenzielle Struktur sowohl im Text- als auch im Videoeingang und führen ein gewichtetes tokenweises Interaktionsmodul (Weighted Token-wise Interaction, WTI) ein, um Inhalt und Paarwechselbeziehungen zu entkoppeln und adaptiv auszunutzen. Diese Interaktion ermöglicht eine bessere Entkoppelung der Mannigfaltigkeit für sequenzielle Eingaben. Zweitens führen wir eine Kanal-DeKorrelations-Regularisierung (Channel DeCorrelation Regularization, CDCR) ein, um die Redundanz zwischen den Komponenten der verglichenen Vektoren zu minimieren und so die Lernbarkeit einer hierarchischen Repräsentation zu fördern. Wir belegen die Wirksamkeit der entkoppelten Repräsentation an mehreren Benchmark-Datenbanken: Auf MSR-VTT, MSVD, VATEX, LSMDC, ActivityNet und DiDeMo übertreffen wir CLIP4Clip jeweils um +2,9 %, +3,1 %, +7,9 %, +2,3 %, +2,8 % und +6,5 % bei R@1.

Text-Video-Retrieval mit entkoppelter Darstellungslernung | Neueste Forschungsarbeiten | HyperAI