Verbesserung der Video-Text-Recherche durch Multi-Stream-Korpus-Ausrichtung und Dual-Softmax-Verlust

Die Verwendung großer vortrainierter Modelle wie CLIP für die Video-Text-Abfrage-Aufgabe (VTR) ist zu einem neuen Trend geworden und übertrifft dabei die bisherigen VTR-Methoden. Allerdings sind die auf CLIP basierenden Ansätze aufgrund der strukturellen und inhaltlichen Heterogenität zwischen Video- und Textdaten anfällig für Überanpassung während des Trainings, was zu einer relativ geringen Retrieval-Leistung führt. In diesem Artikel stellen wir ein mehrströmiges Korpus-Alignment-Netzwerk mit einem einzelnen Gate-Mixture-of-Experts (CAMoE) sowie eine neuartige Dual-Softmax-Verlustfunktion (DSL) vor, um diese beiden Heterogenitäten zu überwinden. Das CAMoE nutzt das Mixture-of-Experts (MoE)-Paradigma, um mehrperspektivische Video-Repräsentationen – beispielsweise hinsichtlich Aktionen, Entitäten, Szenen usw. – zu extrahieren, die anschließend mit den entsprechenden Textabschnitten ausgerichtet werden. In diesem Schritt führen wir umfangreiche Explorationen im Bereich der Merkmalsextraktion und Merkmalsausrichtung durch. Die DSL wird eingeführt, um das Problem der einseitigen Optimalübereinstimmung zu vermeiden, das in früheren kontrastiven Methoden auftritt. Durch die Einbeziehung der inhärenten Priorinformation jedes Datapaares innerhalb eines Batches dient die DSL als Korrekturmechanismus für die Ähnlichkeitsmatrix und erreicht eine doppelte Optimalübereinstimmung. Die DSL ist einfach zu implementieren – sie erfordert lediglich eine Zeile Code – und führt zu einer signifikanten Leistungssteigerung. Die Ergebnisse zeigen, dass sowohl das vorgeschlagene CAMoE als auch die DSL allein betrachtet eine hohe Effizienz aufweisen und jeweils auf verschiedenen Benchmarks wie MSR-VTT, MSVD und LSMDC bereits den Stand der Technik (SOTA) erreichen. Darüber hinaus führt die Kombination beider Komponenten zu einer erheblichen Leistungssteigerung, wobei die Leistung auf MSR-VTT um etwa 4,6 % im R@1-Maß die bisherige SOTA-Methoden übertrifft.