Gemeinsame visuelle Grundlegung und Verfolgung mit natürlicher Sprachspezifikation

Die Verfolgung anhand natürlicher Sprachspezifikation zielt darauf ab, das bezeichnete Ziel in einer Bildsequenz basierend auf einer natürlichen Sprachbeschreibung zu lokalisieren. Bestehende Algorithmen lösen diese Aufgabe in zwei Schritten: visuelle Grundlage (visual grounding) und Verfolgung (tracking), wobei jeweils getrennte Modelle für die beiden Schritte eingesetzt werden. Ein solcher getrennter Ansatz vernachlässigt die Verbindung zwischen visueller Grundlage und Verfolgung, nämlich die Tatsache, dass natürliche Sprachbeschreibungen sowohl für den Grundierungsschritt als auch für den Verfolgungsschritt globale semantische Hinweise liefern, die zur Lokalisierung des Ziels dienen. Zudem lässt sich ein solcher getrennter Rahmen kaum end-to-end trainieren. Um diese Probleme zu bewältigen, schlagen wir einen gemeinsamen Ansatz für visuelle Grundlage und Verfolgung vor, der die beiden Aufgaben als eine einheitliche Aufgabe neu formuliert: die Lokalisierung des bezeichneten Ziels basierend auf gegebenen visuell-sprachlichen Referenzen. Konkret stellen wir ein Modul zur mehrfachen Beziehungsmodellierung vor, das effektiv die Beziehung zwischen visuell-sprachlichen Referenzen und dem Testbild herstellt. Darüber hinaus entwerfen wir ein zeitliches Modell, das mithilfe der globalen semantischen Information eine zeitliche Anleitung bereitstellt und somit die Anpassungsfähigkeit an Änderungen im Erscheinungsbild des Ziels erheblich verbessert. Umfangreiche Experimente auf den Datensätzen TNL2K, LaSOT, OTB99 und RefCOCOg zeigen, dass unsere Methode sowohl hinsichtlich der Verfolgungs- als auch der Grundierungsaufgabe gegenüber den aktuell besten Algorithmen überzeugt. Der Quellcode ist unter https://github.com/lizhou-cs/JointNLT verfügbar.