Einheitliche Grob-zu-Fin-Ausrichtung für die Video-Text-Retrieval

Der kanonische Ansatz für die Video-Text-Retrieval nutzt eine grobkörnige oder feinkörnige Ausrichtung zwischen visueller und textueller Information. Allerdings ist es oft schwierig, das richtige Video gemäß der Textanfrage zu finden, da dies die Fähigkeit erfordert, sowohl hochwertige (Szene) als auch niedrigwertige (Objekt) visuelle Hinweise zu interpretieren und deren Beziehung zur Textanfrage zu verstehen. Zu diesem Zweck schlagen wir ein vereintes Modell von grobkörniger zu feinkörniger Ausrichtung vor, das UCoFiA genannt wird. Insbesondere fängt unser Modell Ähnlichkeitsinformationen auf verschiedenen Granularitätsebenen zwischen den Modalitäten ein. Um den Einfluss irrelevanter visueller Hinweise zu verringern, wenden wir außerdem ein Interaktives Ähnlichkeitsaggregationsmodul (ISA) an, um die Bedeutung verschiedener visueller Merkmale bei der Aggregation der multimodalen Ähnlichkeit zu berücksichtigen und so einen Ähnlichkeitswert für jede Granularitätsebene zu erhalten. Schließlich normalisieren wir die Ähnlichkeiten jeder Ebene mit dem Sinkhorn-Knopp-Algorithmus, bevor wir sie summieren, um Über- und Unterrepräsentationen auf verschiedenen Ebenen abzumildern. Durch die gemeinsame Berücksichtigung der multimodalen Ähnlichkeit unterschiedlicher Granularitäten ermöglicht UCoFiA eine effektive Vereinigung mehrgräniger Ausrichtungen. Empirisch übertrifft UCoFiA mehrere Video-Text-Retrieval-Benchmarks basierend auf CLIP-Methode, wobei es Verbesserungen von 2,4 %, 1,4 % und 1,3 % im Text-zu-Video-Retrieval R@1 auf MSR-VTT, Activity-Net und DiDeMo erzielt. Unser Code ist öffentlich verfügbar unter https://github.com/Ziyang412/UCoFiA.