HyperAIHyperAI

Command Palette

Search for a command to run...

Verfolgung mit menschlicher Absichtsreasoning

Jiawen Zhu Zhi-Qi Cheng Jun-Yan He Chenyang Li Bin Luo Huchuan Lu Yifeng Geng Xuansong Xie

Zusammenfassung

Fortschritte in der Wahrnehmungsmodellierung haben die Leistung von Objektverfolgungssystemen erheblich verbessert. Derzeitige Methoden zur Angabe des Zielobjekts im ersten Frame basieren entweder auf 1) der Verwendung einer Box- oder Maskenvorlage oder auf 2) einer expliziten sprachlichen Beschreibung. Diese Ansätze sind jedoch aufwändig und ermöglichen dem Verfolgungssystem keine eigenständige Schlussfolgerungsfähigkeit. Daher führt diese Arbeit eine neue Verfolgungsaufgabe ein – Instruction Tracking – ein, bei der implizite Verfolgungsanweisungen gegeben werden, die verlangen, dass der Tracker die Verfolgung automatisch in den Videoframes durchführt. Um dies zu erreichen, untersuchen wir die Integration von Wissens- und Schlussfolgerungsfähigkeiten eines großen Vision-Sprache-Modells (Large Vision-Language Model, LVLM) für die Objektverfolgung. Konkret schlagen wir einen Tracker namens TrackGPT vor, der in der Lage ist, komplexe, auf Schlussfolgerungen basierende Verfolgungsaufgaben zu bewältigen. TrackGPT nutzt zunächst ein LVLM, um Verfolgungsanweisungen zu verstehen und die Hinweise darauf, welches Objekt verfolgt werden soll, in sogenannte Bezugsembeddings zu komprimieren. Anschließend generiert die Wahrnehmungskomponente auf Basis dieser Embeddings die Verfolgungsergebnisse. Zur Bewertung der Leistung von TrackGPT haben wir einen Benchmark für Instruction Tracking namens InsTrack erstellt, der über tausend Paare aus Anweisung und Video für die Anweisungstuning- und Evaluierungsaufgaben enthält. Experimente zeigen, dass TrackGPT auf Referenz-Videobjektsegmentierungsbenchmarks konkurrenzfähige Ergebnisse erzielt, beispielsweise eine neue State-of-the-Art-Leistung von 66,5 J&F\mathcal{J}\&\mathcal{F}J&F auf Refer-DAVIS. Zudem demonstriert TrackGPT eine herausragende Leistung bei der Instruction Tracking-Aufgabe unter neuen Evaluierungsprotokollen. Der Quellcode und die Modelle sind unter \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp