Negative Sample Matters: Eine Wiederbelebung des Metrik-Learnings für die temporale Verankerung

Die zeitliche Verortung (temporal grounding) hat das Ziel, einen Videoausschnitt zu lokalisieren, der semantisch mit einer gegebenen natürlichsprachlichen Abfrage übereinstimmt. Bestehende Methoden wenden in der Regel ein Detektions- oder Regressionspipeline auf die fusionierte Darstellung an, wobei der Forschungsschwerpunkt auf der Entwicklung komplizierter Vorhersageköpfe oder Fusionstrategien liegt. Stattdessen betrachten wir die zeitliche Verortung als ein metrisches Lernproblem und stellen ein gegenseitiges Zuordnetzwerk (Mutual Matching Network, MMN) vor, um die Ähnlichkeit zwischen Sprachabfragen und Videoausschnitten direkt in einem gemeinsamen Einbettungsraum zu modellieren. Dieser neue metrische Lernrahmen ermöglicht es, Negative Beispiele aus zwei neuen Aspekten vollständig auszunutzen: die Konstruktion negativer multimodaler Paare in einem gegenseitigen Zuordnungsschema und das Auswählen negativer Paare über verschiedene Videos hinweg. Diese neuen negativen Beispiele können das gemeinsame Lernen von Darstellungen zweier Modalitäten durch multimodale gegenseitige Zuordnung verbessern, um ihre gegenseitige Information zu maximieren. Experimente zeigen, dass unser MMN im Vergleich zu den neuesten Methoden auf vier Video-Verortungs-Benchmarks sehr wettbewerbsfähig ist. Basierend auf MMN präsentieren wir eine Gewinnerlösung für die HC-STVG-Herausforderung des 3. PIC-Workshops. Dies deutet darauf hin, dass metrisches Lernen immer noch eine vielversprechende Methode für die zeitliche Verortung ist, indem es die wesentlichen multimodal korrelierten Merkmale in einem gemeinsamen Einbettungsraum erfasst. Der Quellcode ist unter https://github.com/MCG-NJU/MMN verfügbar.