HyperAIHyperAI

Command Palette

Search for a command to run...

Negative Sample Matters: Eine Wiederbelebung des Metrik-Learnings für die temporale Verankerung

Zhenzhi Wang Limin Wang* Tao Wu Tianhao Li Gangshan Wu

Zusammenfassung

Die zeitliche Verortung (temporal grounding) hat das Ziel, einen Videoausschnitt zu lokalisieren, der semantisch mit einer gegebenen natürlichsprachlichen Abfrage übereinstimmt. Bestehende Methoden wenden in der Regel ein Detektions- oder Regressionspipeline auf die fusionierte Darstellung an, wobei der Forschungsschwerpunkt auf der Entwicklung komplizierter Vorhersageköpfe oder Fusionstrategien liegt. Stattdessen betrachten wir die zeitliche Verortung als ein metrisches Lernproblem und stellen ein gegenseitiges Zuordnetzwerk (Mutual Matching Network, MMN) vor, um die Ähnlichkeit zwischen Sprachabfragen und Videoausschnitten direkt in einem gemeinsamen Einbettungsraum zu modellieren. Dieser neue metrische Lernrahmen ermöglicht es, Negative Beispiele aus zwei neuen Aspekten vollständig auszunutzen: die Konstruktion negativer multimodaler Paare in einem gegenseitigen Zuordnungsschema und das Auswählen negativer Paare über verschiedene Videos hinweg. Diese neuen negativen Beispiele können das gemeinsame Lernen von Darstellungen zweier Modalitäten durch multimodale gegenseitige Zuordnung verbessern, um ihre gegenseitige Information zu maximieren. Experimente zeigen, dass unser MMN im Vergleich zu den neuesten Methoden auf vier Video-Verortungs-Benchmarks sehr wettbewerbsfähig ist. Basierend auf MMN präsentieren wir eine Gewinnerlösung für die HC-STVG-Herausforderung des 3. PIC-Workshops. Dies deutet darauf hin, dass metrisches Lernen immer noch eine vielversprechende Methode für die zeitliche Verortung ist, indem es die wesentlichen multimodal korrelierten Merkmale in einem gemeinsamen Einbettungsraum erfasst. Der Quellcode ist unter https://github.com/MCG-NJU/MMN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp