Erkundung erweiterter kontextueller Informationen für die Objektverfolgung auf Videobasis

Kontextuelle Informationen auf Videoebene sind für die visuelle Objektverfolgung zunehmend von entscheidender Bedeutung. Bestehende Methoden verwenden jedoch in der Regel nur wenige Tokens, um diese Informationen zu übermitteln, was zu Informationsverlust führen und ihre Fähigkeit, den Kontext vollständig zu erfassen, einschränken kann. Um dieses Problem anzugehen, schlagen wir einen neuen Framework für die visuelle Objektverfolgung auf Videoebene vor, den wir MCITrack nennen. Dieses Framework nutzt die verborgenen Zustände von Mamba, um kontinuierlich umfangreiche kontextuelle Informationen durch den gesamten Videostream zu erfassen und zu übertragen. Das Ergebnis ist eine robusteren Objektverfolgung. Der Kernkomponente von MCITrack ist das Modul zur Fusionierung kontextueller Informationen (Contextual Information Fusion Module), das aus einer Mamba-Schicht und einer Cross-Attention-Schicht besteht. Die Mamba-Schicht speichert historische kontextuelle Informationen, während die Cross-Attention-Schicht diese Informationen in die aktuellen visuellen Merkmale jedes Backbone-Blocks integriert. Dieses Modul verbessert durch tiefgreifende Integration mit dem Backbone die Fähigkeit des Modells, kontextuelle Informationen auf mehreren Ebenen zu erfassen und zu nutzen. Experimente zeigen, dass MCITrack wettbewerbsfähige Leistungen bei zahlreichen Benchmarks erzielt. So erreicht es beispielsweise einen AUC-Wert von 76,6 % auf LaSOT und einen AO-Wert von 80,0 % auf GOT-10k, wodurch eine neue Standarte der Technik (state-of-the-art) gesetzt wird. Der Quellcode und die Modelle sind unter https://github.com/kangben258/MCITrack verfügbar.