HyperAIHyperAI

Command Palette

Search for a command to run...

Erkundung erweiterter kontextueller Informationen für die Objektverfolgung auf Videobasis

Ben Kang Xin Chen Simiao Lai Yang Liu Yi Liu Dong Wang

Zusammenfassung

Kontextuelle Informationen auf Videoebene sind für die visuelle Objektverfolgung zunehmend von entscheidender Bedeutung. Bestehende Methoden verwenden jedoch in der Regel nur wenige Tokens, um diese Informationen zu übermitteln, was zu Informationsverlust führen und ihre Fähigkeit, den Kontext vollständig zu erfassen, einschränken kann. Um dieses Problem anzugehen, schlagen wir einen neuen Framework für die visuelle Objektverfolgung auf Videoebene vor, den wir MCITrack nennen. Dieses Framework nutzt die verborgenen Zustände von Mamba, um kontinuierlich umfangreiche kontextuelle Informationen durch den gesamten Videostream zu erfassen und zu übertragen. Das Ergebnis ist eine robusteren Objektverfolgung. Der Kernkomponente von MCITrack ist das Modul zur Fusionierung kontextueller Informationen (Contextual Information Fusion Module), das aus einer Mamba-Schicht und einer Cross-Attention-Schicht besteht. Die Mamba-Schicht speichert historische kontextuelle Informationen, während die Cross-Attention-Schicht diese Informationen in die aktuellen visuellen Merkmale jedes Backbone-Blocks integriert. Dieses Modul verbessert durch tiefgreifende Integration mit dem Backbone die Fähigkeit des Modells, kontextuelle Informationen auf mehreren Ebenen zu erfassen und zu nutzen. Experimente zeigen, dass MCITrack wettbewerbsfähige Leistungen bei zahlreichen Benchmarks erzielt. So erreicht es beispielsweise einen AUC-Wert von 76,6 % auf LaSOT und einen AO-Wert von 80,0 % auf GOT-10k, wodurch eine neue Standarte der Technik (state-of-the-art) gesetzt wird. Der Quellcode und die Modelle sind unter https://github.com/kangben258/MCITrack verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp