Kontextgesteuerte räumlich-zeitliche Video-Verankerung

Die Aufgabe der räumlich-zeitlichen Video-Ankerung (oder STVG) besteht darin, eine räumlich-zeitliche Tube für ein bestimmtes Objekt anhand einer Textanfrage zu lokalisieren. Trotz Fortschritte leiden aktuelle Methoden leicht unter Störfaktoren oder starken Änderungen des Objektauftritts in Videos aufgrund unzureichender Objektinformationen aus dem Text, was zu einer Verschlechterung führt. Um dieses Problem anzugehen, schlagen wir einen neuen Ansatz vor: die kontextgesteuerte räumlich-zeitliche Video-Ankerung (CG-STVG). Dieser Ansatz extrahiert diskriminierende Instanzkontexte für Objekte in Videos und verwendet sie als zusätzliche Anleitung zur Ziellokalisation. Der Kern von CG-STVG liegt in zwei speziell entwickelten Modulen: dem Instanzkontextgenerierungsmodul (ICG), das sich auf die Entdeckung visueller Kontextinformationen (sowohl im Erscheinungsbild als auch in der Bewegung) der Instanz konzentriert, und dem Instanzkontextverfeinerungsmodul (ICR), das darauf abzielt, den durch ICG erzeugten Instanzkontext durch Eliminierung irrelevanter oder sogar schädlicher Informationen aus dem Kontext zu verbessern.Während der Ankerung werden ICG und ICR in jeder Dekodierstufe eines Transformer-Architekturen eingesetzt, um den Instanzkontext zu lernen. Insbesondere wird der in einer Dekodierstufe gelernte Instanzkontext an die nächste Stufe weitergegeben und als Anleitung mit reichen und diskriminierenden Objektmerkmalen genutzt, um die Zielbewusstheit in den Dekodiermerkmalen zu erhöhen. Dies fördert wiederum die Erstellung eines besseren neuen Instanzkontextes, was letztendlich die Lokalisation verbessert. Verglichen mit bestehenden Methoden profitiert CG-STVG von den Objektinformationen in der Textanfrage sowie von der Anleitung durch den extrahierten visuellen Instanzkontext für eine genauere Ziellokalisation.In unseren Experimenten auf drei Benchmarks, einschließlich HCSTVG-v1/-v2 und VidSTG, erreicht CG-STVG neue Standartechniken (state-of-the-art) im m_tIoU und m_vIoU auf allen von ihnen, was seine Effizienz zeigt. Der Code wird veröffentlicht unter https://github.com/HengLan/CGSTVG.