18日前

DeepVS:深層学習を活用した動画サリエンシー予測手法

{Minglang Qiao, Mai Xu, Zulin Wang, Tie Liu, Lai Jiang}
DeepVS:深層学習を活用した動画サリエンシー予測手法
要約

本稿では、深層学習に基づく動画サリエンシー予測手法として、DeepVSと名付けた新規手法を提案する。具体的には、538本の動画に対して32名の被験者の視線固定データを収集した大規模な動画眼動追跡データベース(LEDOV: Large-scale Eye-tracking Database of Videos)を構築した。LEDOVの分析から、人間の注意は特に動く物体や物体の動く部分に引き寄せられやすいことが明らかになった。これを踏まえ、DeepVSにおけるフレーム内サリエンシーを予測するため、オブジェクト性(objectness)と運動性(motion)のサブネットから構成される、オブジェクトから運動への畳み込みニューラルネットワーク(OM-CNN)を提案した。OM-CNNでは、オブジェクト性サブネットの空間的特徴と運動性サブネットの時系列的特徴を統合するために、クロスネットマスク(cross-net mask)および階層的特徴正規化(hierarchical feature normalization)を導入した。さらに、本データベースの分析から、人間の注意には時間的な相関性が存在し、フレーム間でサリエンシーが滑らかに変化する傾向があることが判明した。この観察に基づき、OM-CNNから抽出された特徴を入力として用いる、サリエンシー構造付き畳み込み長短期記憶ネットワーク(SS-ConvLSTM)を提案した。これにより、中心バイアスを持つ構造的出力および視線マップのフレーム間遷移を考慮したフレーム間サリエンシーマップを生成可能となった。最終的に、実験結果からDeepVSが動画サリエンシー予測の最先端技術を大きく上回ることを示した。