
過去10年間、動画における注目対象の検出(VSOD: Video Salient Object Detection)に対する関心が著しく高まっている。しかし、長年にわたり、リアルな動的シーンを適切に反映し、高品質なアノテーションを備えた標準的なVSODデータセットの不足が、研究コミュニティにおける課題であった。この問題に対処するため、本研究では視覚的注目一致性を保ちつつ、密にアノテーションが付与されたDAVSOD(Densely Annotated VSOD)データセットを丁寧に構築した。このデータセットは、226本の動画、合計23,938フレームを含み、多様な現実的シーン、物体、インスタンス、運動パターンをカバーしている。また、対応する人的視線固定データ(human eye-fixation data)を用いることで、高精度な真値(ground-truth)を取得した。本研究は、動画における注目対象が動的に変化する「注目シフト(saliency shift)」という課題に初めて明示的に注目した最初の試みである。さらに、研究コミュニティへの貢献として、包括的なベンチマークを提供するため、既存の7つのVSODデータセットおよび本研究で構築したDAVSODを含む、合計84,000フレームに及ぶ最大規模のデータセット上で、17の代表的なVSODアルゴリズムを体系的に評価した。3つの代表的な評価指標を用いて、包括的かつ洞察に富んだ性能分析を実施した。さらに、注目シフトに耐性を持つコンボリューショナルLSTM(saliency shift-aware convLSTM)を搭載したベースラインモデルを提案した。このモデルは、人間の注視移動行動を学習することで、動画における注目度の動的な変化を効率的に捉えることが可能である。広範な実験結果から、モデル開発および比較に関する有望な今後の方向性が示された。