HyperAIHyperAI
vor 4 Monaten

Zu effizienter und effektiver Text-zu-Video-Retrieval durch lernende visuelle Darstellung von grob zu fein

Kaibin Tian; Yanhua Cheng; Yi Liu; Xinglin Hou; Quan Chen; Han Li
Zu effizienter und effektiver Text-zu-Video-Retrieval durch lernende visuelle Darstellung von grob zu fein
Abstract

In den letzten Jahren haben sich textbasierte Video-Retrieval-Methoden, die auf CLIP basieren, rasant weiterentwickelt. Der Hauptfokus der Evolution liegt darin, das viel breitere Spektrum visueller und textbasierter Hinweise zu nutzen, um eine Ausrichtung zu erreichen. Konkret entwerfen Methoden mit beeindruckender Leistung oft einen umfangreichen Fusionsblock für die Interaktion zwischen Satz (Wörtern) und Video (Bildern), ungeachtet der hohen Rechenkomplexität. Dennoch sind diese Ansätze hinsichtlich der Nutzung von Merkmalen und der Retrieval-Effizienz nicht optimal. Um dieses Problem zu lösen, setzen wir auf multigranulare visuelle Merkmalslernmethoden, um sicherzustellen, dass das Modell während der Trainingsphase in der Lage ist, visuelle Inhaltsmerkmale von abstrakten bis zu detaillierten Ebenen umfassend zu erfassen. Um die multigranularen Merkmale besser auszunutzen, entwickeln wir in der Retrieval-Phase eine zweistufige Retrieval-Architektur. Diese Lösung balanciert geschickt den grobkörnigen und feinkörnigen Inhalt der Retrieval. Darüber hinaus schafft sie auch eine harmonische Balance zwischen Retrieval-Effektivität und -Effizienz. Insbesondere entwerfen wir in der Trainingsphase einen parametrierfreien Textgated Interaction Block (TIB) für das Lernen feinkörniger Videodarstellungen und integrieren eine zusätzliche Pearson-Bedingung zur Optimierung des lernenden multimodalen Darstellungsschemas. In der Retrieval-Phase verwenden wir grobkörnige Videodarstellungen zur schnellen Rückrufung der Top-k-Kandidaten, die dann durch feinkörnige Videodarstellungen neu geordnet werden. Ausführliche Experimente auf vier Benchmarks belegen Effizienz und Effektivität unserer Methode. Bemerkenswert ist dabei, dass unsere Methode vergleichbare Ergebnisse wie aktuelle state-of-the-art-Methoden erzielt, gleichzeitig aber etwa 50-mal schneller ist.