BAM-DETR: Boundary-Aligned Moment Detection Transformer für temporales Satz-Anchoring in Videos

Die zeitliche Satzverankerung (temporal sentence grounding) zielt darauf ab, relevante Momente einer sprachlichen Beschreibung zu lokalisieren. Kürzlich haben Ansätze im Stil von DETR durch die Vorhersage des Zentrums und der Länge eines Zielmoments bemerkenswerte Fortschritte erzielt. Dennoch leiden sie unter dem Problem der Fehlpositionierung des Zentrums, das durch die inhärente Unbestimmtheit von Momentzentren verursacht wird und zu ungenauen Vorhersagen führt. Um dieses Problem zu beheben, schlagen wir eine neuartige grenzenorientierte Momentformulierung vor. In unserem Paradigma muss das Modell nicht mehr das genaue Zentrum finden, sondern es reicht aus, einen beliebigen Ankerpunkt innerhalb des Intervalls vorherzusagen, von dem aus die Grenzen direkt geschätzt werden. Auf dieser Idee basierend entwickeln wir einen grenzenausgerichteten Moment-Detektions-Transformer, der mit einem zweipfadigen Decodierungsprozess ausgestattet ist. Insbesondere verfeinert er den Ankerpunkt und die Grenzen in parallelen Pfaden mittels globaler und grenzenfokussierter Aufmerksamkeit jeweils. Diese getrennte Gestaltung ermöglicht es dem Modell, sich auf wünschenswerte Bereiche zu konzentrieren und eine präzise Verfeinerung der Momentvorhersagen zu gewährleisten. Darüber hinaus schlagen wir eine qualitätsbasierte Rangfolgemethode vor, die sicherstellt, dass Vorschläge mit hoher Lokalisierungsqualität gegenüber unvollständigen Vorschlägen priorisiert werden. Experimente an drei Benchmarks bestätigen die Effektivität der vorgeschlagenen Methoden. Der Code ist unter https://github.com/Pilhyeon/BAM-DETR verfügbar.