
自然言語による指定による追跡(Tracking by natural language specification)は、動画シーケンス内における参照対象の位置特定を、自然言語による記述に基づいて行うタスクである。従来の手法はこの問題を、視覚的接地(visual grounding)と追跡(tracking)の2段階に分けて解決し、それぞれ独立した接地モデルと追跡モデルを用いて処理している。しかし、このような分離型フレームワークは、視覚的接地と追跡の間に存在する密接な関係を無視している。すなわち、自然言語記述は、両タスクにおいて対象の局所化に役立つグローバルな意味情報(セマンティックヒント)を提供しているという点である。さらに、分離型アーキテクチャはエンド・トゥ・エンドでの学習が困難である。こうした課題に対処するため、本研究では視覚的接地と追跡を統合したフレームワークを提案する。このフレームワークは、視覚言語リファレンスに基づいて参照対象を局所化するという統一されたタスクとして、接地と追跡を再定式化している。具体的には、テスト画像と視覚言語リファレンスの間に有効な関係を構築するため、マルチソース関係モデリングモジュールを提案する。また、グローバルな意味情報のガイドのもとで時系列的情報を捉えるための時系列モデリングモジュールを設計し、対象の外見変化に対するモデルの適応性を著しく向上させた。TNL2K、LaSOT、OTB99、RefCOCOgの4つのベンチマーク上で実施した広範な実験結果から、本手法は追跡および接地の両面で、最先端のアルゴリズムと比較しても優れた性能を発揮することが示された。コードは以下のURLから公開されている:https://github.com/lizhou-cs/JointNLT。