HyperAIHyperAI

Command Palette

Search for a command to run...

ビデオレベルの物体追跡における強化された文脈情報の探索

Ben Kang Xin Chen Simiao Lai Yang Liu Yi Liu Dong Wang

概要

ビデオレベルでの文脈情報が視覚的な物体追跡においてますます重要になっています。しかし、既存の手法は通常、この情報を伝えるためにわずかなトークンしか使用せず、情報の損失を引き起こし、文脈を完全に捉える能力を制限する可能性があります。この問題に対処するために、私たちは新しいビデオレベルの視覚的物体追跡フレームワークであるMCITrackを提案します。MCITrackはMambaの隠れ状態を利用して、ビデオストリーム全体で広範な文脈情報を継続的に記録し、伝送します。これにより、より堅牢な物体追跡が可能になります。MCITrackの核心部は文脈情報統合モジュールであり、mamba層とクロスアテンション層から構成されています。mamba層は歴史的な文脈情報を保存し、クロスアテンション層はこの情報を各バックボーンブロックの現在の視覚特徴に統合します。このモジュールは、バックボーンとの深いつながりを通じて複数のレベルで文脈情報を捉え、利用するモデルの能力を向上させます。実験結果では、MCITrackが多数のベンチマークで競争力のある性能を達成していることが示されています。例えば、LaSOTでは76.6%のAUC(Area Under Curve)を記録し、GOT-10kでは80.0%のAO(Average Overlap)を得ています。これらの結果は新たな最先端性能を確立しています。コードとモデルはhttps://github.com/kangben258/MCITrack で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています