自然言語を用いたより柔軟かつ正確なオブジェクト追跡:アルゴリズムとベンチマーク

自然言語による指定に基づく追跡(Tracking by natural language specification)は、動画シーケンス内の対象オブジェクトをその言語的記述に基づいて特定することを目的とする、近年注目が高まっている研究分野である。従来のバウンディングボックス(BBox)に基づく追跡と比較して、本アプローチは高レベルの意味情報によってオブジェクト追跡を制御し、BBoxによる曖昧さを解消するとともに、局所探索とグローバル探索を自然に統合することができる。これらの利点は、実用的なシナリオにおいてより柔軟で、堅牢性に富み、精度の高い追跡性能を実現する可能性を秘めている。しかし、現在の自然言語初期化追跡手法は、BBoxに基づく追跡を想定したベンチマークデータセット上で開発・評価されており、言語による追跡の真の能力を適切に反映できていない。本研究では、自然言語による追跡に特化した新しいベンチマークを提案する。本ベンチマークは、大規模なデータセットと強力かつ多様なベースライン手法を含んでいる。具体的には、2,000本の動画シーケンス(合計1,244,340フレーム、663語)を収集し、トレーニング/テストにそれぞれ1,300/700本を分割した。各動画に対して、英語で1文の言語記述と、対象オブジェクトのバウンディングボックスを密にアノテーションしている。さらに、オブジェクト追跡タスクにおいて新たな課題として、敵対的サンプル(adversarial samples)とモダリティスイッチ(modality switch)をTNL2Kに導入した。今後の研究における比較基準として、適応的局所・グローバル探索スキームに基づく強力なベースライン手法も提案する。本ベンチマークが、自然言語による追跡に関する関連研究の発展を大きく促進すると確信している。