2ヶ月前

ビデオ注目度の再検討:大規模ベンチマークと新しいモデル

Wenguan Wang; Jianbing Shen; Fang Guo; Ming-Ming Cheng; Ali Borji
ビデオ注目度の再検討:大規模ベンチマークと新しいモデル
要約

本研究では、動的シーンの自由視察中に人間の眼球運動を予測する新しいベンチマークを導入することで、ビデオ注目度研究に二つの貢献を行います。まず、この分野で長年求められていた新しいベンチマークとして、DHF1K(Dynamic Human Fixation)というデータセットを紹介します。当該データセットは、多様なシーン、動き、物体種類、背景の複雑さをカバーする1,000本の高品質で慎重に選択されたビデオシーケンスから構成されています。既存のビデオ注目度データセットは一般的な動的シーンの多様性と普遍性に欠けており、制約のない環境での困難な状況を十分にカバーできていません。これに対してDHF1Kは、拡張性、多様性、難易度において大幅な進歩を遂げており、ビデオ注目度モデリングの発展が期待されます。また、我々はCNN-LSTMネットワークアーキテクチャに注意メカニズムを追加した新しいビデオ注目度モデルを提案します。この注意メカニズムは静的な注目度情報を明示的に符号化し、LSTMが連続フレーム間でより柔軟な時間的な注目度表現を学習することを可能にします。このような設計により、既存の大規模静的視点データセットを完全に活用し、過学習(overfitting)を回避するとともに訓練効率とテスト性能が大幅に向上します。我々は提案モデルの性能について最新の注目度モデルと比較して三つの大規模データセット(すなわちDHF1K, Hollywood2, UCFスポーツ)上で詳細に評価しました。1,200本以上のテストビデオ(40万フレーム以上含む)に対する実験結果は、提案モデルが他の競合モデルよりも優れていることを示しています。