11日前

言語誘導型動画セグメンテーションのためのローカル・グローバルコンテキスト認識Transformer

Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo, Yi Yang
言語誘導型動画セグメンテーションのためのローカル・グローバルコンテキスト認識Transformer
要約

言語誘導型動画セグメンテーション(LVS)の課題に取り組みます。従来の手法は主に3D CNNを用いて動画表現を学習していたが、長期間の文脈を捉えるのが困難であり、視覚的・言語的対応のずれ(visual-linguistic misalignment)に悩まされてきた。こうした課題に鑑み、本研究では「Locater(local-global context aware Transformer)」を提案する。Locaterは、Transformerアーキテクチャに有限のメモリ機構を導入することで、言語表現を効率的に全動画に問い合わせられるようにした。このメモリは、2つの構成要素から成り立っている:一つは動画全体のグローバルなコンテンツを恒常的に保持するためのものであり、もう一つは局所的な時系列的文脈およびセグメンテーション履歴を動的に収集するためのものである。この記憶された局所・グローバルな文脈と、各フレームの特徴を統合的に活用することで、Locaterは各フレームに対して適応的なクエリベクトルとして言語表現を柔軟かつ包括的に理解する。このベクトルを用いて対応するフレームを問い合わせ、マスクを生成する。また、メモリ機構によりLocaterは、動画長に対して線形時間計算量(linear time complexity)と定数サイズのメモリを維持可能である一方、Transformer型の自己注意機構(self-attention)はシーケンス長に対して二次的に増大する。LVSモデルの視覚的接地能力(visual grounding capability)を徹底的に評価するため、A2D-Sデータセットを基盤として、類似物体の区別が困難な課題を課す新たなLVSデータセット「A2D-S+」を構築した。3つのLVSデータセットおよび自ら作成したA2D-S+における実験結果から、Locaterは従来の最先端手法を上回ることを示した。さらに、第3回大規模動画オブジェクトセグメンテーションチャレンジ(3rd Large-scale Video Object Segmentation Challenge)における「参照動画オブジェクトセグメンテーショントラック」で1位を獲得し、優勝ソリューションの基盤としてLocaterが採用された。本研究のコードおよびデータセットは以下のURLから公開されている:https://github.com/leonnnop/Locater

言語誘導型動画セグメンテーションのためのローカル・グローバルコンテキスト認識Transformer | 最新論文 | HyperAI超神経