Verfolgung mit menschlicher Absichtsreasoning

Fortschritte in der Wahrnehmungsmodellierung haben die Leistung von Objektverfolgungssystemen erheblich verbessert. Derzeitige Methoden zur Angabe des Zielobjekts im ersten Frame basieren entweder auf 1) der Verwendung einer Box- oder Maskenvorlage oder auf 2) einer expliziten sprachlichen Beschreibung. Diese Ansätze sind jedoch aufwändig und ermöglichen dem Verfolgungssystem keine eigenständige Schlussfolgerungsfähigkeit. Daher führt diese Arbeit eine neue Verfolgungsaufgabe ein – Instruction Tracking – ein, bei der implizite Verfolgungsanweisungen gegeben werden, die verlangen, dass der Tracker die Verfolgung automatisch in den Videoframes durchführt. Um dies zu erreichen, untersuchen wir die Integration von Wissens- und Schlussfolgerungsfähigkeiten eines großen Vision-Sprache-Modells (Large Vision-Language Model, LVLM) für die Objektverfolgung. Konkret schlagen wir einen Tracker namens TrackGPT vor, der in der Lage ist, komplexe, auf Schlussfolgerungen basierende Verfolgungsaufgaben zu bewältigen. TrackGPT nutzt zunächst ein LVLM, um Verfolgungsanweisungen zu verstehen und die Hinweise darauf, welches Objekt verfolgt werden soll, in sogenannte Bezugsembeddings zu komprimieren. Anschließend generiert die Wahrnehmungskomponente auf Basis dieser Embeddings die Verfolgungsergebnisse. Zur Bewertung der Leistung von TrackGPT haben wir einen Benchmark für Instruction Tracking namens InsTrack erstellt, der über tausend Paare aus Anweisung und Video für die Anweisungstuning- und Evaluierungsaufgaben enthält. Experimente zeigen, dass TrackGPT auf Referenz-Videobjektsegmentierungsbenchmarks konkurrenzfähige Ergebnisse erzielt, beispielsweise eine neue State-of-the-Art-Leistung von 66,5 $\mathcal{J}\&\mathcal{F}$ auf Refer-DAVIS. Zudem demonstriert TrackGPT eine herausragende Leistung bei der Instruction Tracking-Aufgabe unter neuen Evaluierungsprotokollen. Der Quellcode und die Modelle sind unter \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT} verfügbar.