Command Palette
Search for a command to run...
視覚的注意を用いた教師なし動画オブジェクトセグメンテーションの学習
視覚的注意を用いた教師なし動画オブジェクトセグメンテーションの学習
Haibin Ling Steven C. H. Hoi Sanyuan Zhao Jianbing Shen Shuyang Zhao Hongmei Song Wenguan Wang
概要
本稿は、教師なし動画オブジェクトセグメンテーション(Unsupervised Video Object Segmentation: UVOS)タスクにおける視覚的注意の役割について体系的な研究を行った。我々は、UVOS設定下でDAVIS、Youtube-Objects、SegTrack V2の3つの代表的な動画セグメンテーションデータセットに、動的な眼動追跡データを詳細にアノテーションすることで、初めて人間観察者間における視覚的注意行動の高い一貫性を定量的に検証した。さらに、動的かつタスク駆動的な視聴条件下において、人間の注意と明示的な主オブジェクト判断との間に強い相関関係が存在することを発見した。これらの新規な観察結果は、UVOSの背後にある根本的なメカニズムについて深く洞察する手がかりを提供する。これらの知見をもとに、我々はUVOSを2つのサブタスクに分離するアプローチを提案した:時間空間領域におけるUVOS駆動型動的視覚的注意予測(Dynamic Visual Attention Prediction: DVAP)、および空間領域における注意誘導型オブジェクトセグメンテーション(Attention-Guided Object Segmentation: AGOS)。本研究で提案するUVOSソリューションは、以下の3つの主な利点を持つ。1)高価な動画セグメンテーションアノテーションを一切使用せずに、モジュール単位での学習が可能。初期の動画注意モジュールは、よりコスト効率の高い動的固定点データを用いて学習し、その後のセグメンテーションモジュールは既存の固定点-セグメンテーションペアの静的画像データを活用して学習する。2)複数のデータソースからの学習により、前景オブジェクトに対する包括的な理解が可能となる。3)生物学的にインスパイアされた、かつ評価可能な注意メカニズムにより、追加的な解釈可能性が得られる。代表的なベンチマークでの実験結果から、高価な動画オブジェクトマスクアノテーションを一切使用せずに、最先端手法と比較しても競争力ある性能を達成することが示された。