13日前

Transformerがトラッカーと融合する:時系列的文脈を活用した堅牢な視覚追跡

Ning Wang, Wengang Zhou, Jie Wang, Houqaing Li
Transformerがトラッカーと融合する:時系列的文脈を活用した堅牢な視覚追跡
要約

動画オブジェクト追跡において、連続するフレーム間に豊富な時系列的文脈が存在するが、従来の追跡手法ではこの点が大きく無視されてきた。本研究では、変換器(transformer)アーキテクチャを用いて個々の動画フレームを統合し、それらの間の時系列的文脈を活用することで、堅牢なオブジェクト追跡を実現する。従来の自然言語処理タスクにおける変換器の一般的な使用法とは異なり、本研究ではエンコーダとデコーダを二つの並列ブランチに分離し、シアメス型の追跡パイプラインに適切に統合する設計を施した。変換器エンコーダは、注目(attention)に基づく特徴強化によってターゲットテンプレートを向上させ、高品質な追跡モデルの生成を促進する。一方、変換器デコーダは、過去のテンプレートから現在のフレームへと追跡の手がかりを伝搬し、オブジェクトの探索プロセスを効率化する。本研究で提案する変換器支援型追跡フレームワークは構造的に簡潔であり、エンド・ツー・エンドで学習可能である。提案する変換器を導入することで、単純なシアメス型マッチングアプローチが、現在の最先端追跡手法を上回る性能を達成した。さらに、最近の識別型追跡パイプラインと組み合わせることで、本手法は代表的な追跡ベンチマークにおいて複数の新たな最良記録を樹立した。

Transformerがトラッカーと融合する:時系列的文脈を活用した堅牢な視覚追跡 | 最新論文 | HyperAI超神経