2ヶ月前

TP-GMOT: テキストプロンプトと動作-外観コスト(MAC)を用いた一般的な複数物体追跡SORT

Anh, Duy Le Dinh ; Tran, Kim Hoang ; Le, Ngan Hoang
TP-GMOT: テキストプロンプトと動作-外観コスト(MAC)を用いた一般的な複数物体追跡SORT
要約

多目的追跡(MOT)は大きな進歩を遂げていますが、事前知識への重い依存と事前に定義されたカテゴリに限定されるという制約があります。一方、類似した外観を持つ複数の目的を追跡する汎用多目的追跡(GMOT)は、目標に関する事前情報が少ないことが求められますが、視点、照明、遮蔽、解像度などの変異に対して課題を抱えています。当研究の貢献は、各ビデオにその属性の詳細なテキスト説明が付属している \textbf{\text{Refer-GMOT データセット}} の導入から始まります。その後、\textbf{\text{TP-GMOT}} と呼ばれる新しいテキストプロンプトベースのオープンボキャブラリー GMOT フレームワークを提案します。このフレームワークでは、特定の特性を持つ未見の物体を正確に検出するための (i) \textbf{\text{TP-OD}}(テキストプロンプトによる物体検出)、(ii) 複雑な類似性が高い複数の汎用物体を追跡するための運動と外観に基づくマッチング戦略を巧みに統合した新しい物体関連付け手法である \textbf{\text{MAC-SORT}}(Motion-Appearance Cost SORT)という2つの新規コンポーネントを導入しています。これらの貢献は \text{Refer-GMOT} データセット上で GMOT タスクでベンチマークテストされています。さらに、提案された \text{TP-GMOT} フレームワークの汎化能力と \text{MAC-SORT} トラッカーの効果性を評価するために、DanceTrack および MOT20 データセット上で MOT タスクに対するアブレーションスタディを行いました。当研究のデータセット、コード、モデルは以下のURLで公開されます: https://fsoft-aic.github.io/TP-GMOT

TP-GMOT: テキストプロンプトと動作-外観コスト(MAC)を用いた一般的な複数物体追跡SORT | 最新論文 | HyperAI超神経