HyperAIHyperAI
vor 2 Monaten

Korrelationsgesteuerte Abfrageabhängigkeitkalibrierung für die zeitliche Lokalisierung von Videos

WonJun Moon; Sangeek Hyun; SuBeen Lee; Jae-Pil Heo
Korrelationsgesteuerte Abfrageabhängigkeitkalibrierung für die zeitliche Lokalisierung von Videos
Abstract

Temporal Grounding besteht darin, spezifische Momente oder Highlights aus einem Video zu identifizieren, die den textuellen Beschreibungen entsprechen. Typische Ansätze im Bereich des Temporal Grounding behandeln alle Videosequenzen während des Kodierungsprozesses gleich, unabhängig von ihrer semantischen Relevanz für die Textanfrage. Daher schlagen wir den Korrelationsgeleiteten Detektions-Transformer (Correlation-Guided DEtection TRansformer, CG-DETR) vor, der darauf abzielt, Hinweise für videobezogene Anfragen innerhalb der multimodalen Aufmerksamkeit zu liefern. Zunächst entwickeln wir eine adaptive Kreuzaufmerksamkeit mit Dummy-Tokens. Diese Dummy-Tokens, die durch die Textanfrage konditioniert sind, übernehmen einen Teil der Aufmerksamkeitsgewichte und verhindern so, dass irrelevante Videosequenzen durch die Textanfrage repräsentiert werden. Nicht alle Wörter erben jedoch gleichermaßen die Korrelation der Textanfrage zu den Videosequenzen. Deshalb leiten wir die Kreuzaufmerksamkeitskarte weiter durch das Inferenzverfahren der feinkörnigen Korrelation zwischen Videosequenzen und Wörtern. Dies ermöglichen wir durch das Lernen eines gemeinsamen Einbettungsraums für hochrangige Konzepte, d.h., auf Moment- und Satzebene, und das Inferenzverfahren zur Sequenz-Wort-Korrelation. Schließlich nutzen wir die charakteristischen Eigenschaften spezifischer Momente und kombinieren sie mit dem Kontext jedes Videos, um einen momentangepassten Salienzerkennungsdetektor zu bilden. Durch die Ausnutzung des Grades der Textbeteiligung in jeder Videosequenz misst es präzise den Grad des Highlightcharakters jeder Sequenz. CG-DETR erzielt Stand-of-the-Art-Ergebnisse bei verschiedenen Benchmarks für Temporal Grounding. Die Codes sind unter https://github.com/wjun0830/CGDETR verfügbar.

Korrelationsgesteuerte Abfrageabhängigkeitkalibrierung für die zeitliche Lokalisierung von Videos | Neueste Forschungsarbeiten | HyperAI