11日前

人間の意図推論を用いた追跡

Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie
人間の意図推論を用いた追跡
要約

認識モデルの進展により、物体追跡の性能は著しく向上している。しかし、現在の手法では初期フレームにおける追跡対象の指定が、1)ボックスまたはマスクテンプレートを用いる、または2)明示的な言語記述を提供する、という二つの方法に限られている。これらの方法は煩雑であり、追跡器に自己推論能力を持たせることができない。そこで本研究では、追跡器が動画フレーム内で自動的に追跡を実行できるよう、暗黙的な追跡指示を与える新しい追跡タスク——「インストラクション追跡(Instruction Tracking)」を提案する。これを実現するため、大規模視覚言語モデル(LVLM: Large Vision-Language Model)の知識および推論能力を物体追跡に統合することを検討した。具体的には、複雑な推論に基づく追跡が可能な追跡器「TrackGPT」を提案する。TrackGPTはまずLVLMを用いて追跡指示を理解し、追跡対象の特徴を参照埋め込み(referring embeddings)に要約する。その後、認識モジュールがこの埋め込みに基づいて追跡結果を生成する。TrackGPTの性能評価のため、インストラクションチューニングおよび評価に用いる一千以上のインストラクション-動画ペアを含むベンチマーク「InsTrack」を構築した。実験の結果、TrackGPTは参照動画物体セグメンテーションのベンチマークにおいて競争力のある性能を達成しており、特にRefer-DAVISでは66.5 $\mathcal{J}\&\mathcal{F}$という新たな最先端(SOTA)の成績を記録した。また、新しい評価プロトコル下でも、インストラクション追跡において優れた性能を示した。コードおよびモデルは、\href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT} で公開されている。

人間の意図推論を用いた追跡 | 最新論文 | HyperAI超神経