
画像および動画の視覚的注目度モデリングは、最近のコンピュータビジョンの文献において独立したタスクとして扱われています。画像の注目度モデリングは既に十分に研究が進んでおり、SALICONやMIT300などのベンチマークでの進歩が鈍化していますが、動画の注目度モデルはDHF1Kベンチマークで急速な改善を示しています。本研究では、一歩引いて次のような問いを立てます:画像と動画の注目度モデリングは統一されたモデルを通じて相互利益を得ながらアプローチできるでしょうか?私たちは、画像と動画の注目度データ間、そして異なる動画注目度データセット間におけるドメインシフトの異なる原因を特定し、効果的な共同モデリングにとって重要な課題であると考えています。この課題に対処するために、私たちは4つの新しいドメイン適応技術 - ドメイン適応事前分布(Domain-Adaptive Priors)、ドメイン適応融合(Domain-Adaptive Fusion)、ドメイン適応平滑化(Domain-Adaptive Smoothing)およびバイパスRNN(Bypass-RNN) - を提案します。また、学習されたガウス事前分布の改良版も提案します。これらの技術をシンプルかつ軽量なエンコーダー-RNN-デコーダー型ネットワークUNISALに統合し、画像と動画の注目度データを同時に使用して訓練を行いました。私たちはDHF1K、Hollywood-2およびUCF-Sportsという動画注目度データセットと、SALICONおよびMIT300という画像注目度データセットで方法を評価しました。単一のパラメータセットを使用することで、UNISALはすべての動画注目度データセットで最先端の性能を達成し、競合する深層学習手法よりも高速な実行時間と5〜20倍小さいモデルサイズにもかかわらず、画像注目度データセットでも最先端と同等の性能を発揮しました。私たちは後方分析およびアブレーションスタディを行い、ドメインシフトモデリングの重要性を確認しました。コードはhttps://github.com/rdroste/unisal で公開されています。