17日前
TranSalNet:知覚的に関連する視覚的注目度予測への道標
Jianxun Lou, Hanhe Lin, David Marshall, Dietmar Saupe, Hantao Liu

要約
トランスフォーマーを用いた視覚的注目度予測畳み込みニューラルネットワーク(CNN)は、注目度予測のための計算モデルの発展に大きく貢献してきました。しかし、人間皮質における視覚的注意のメカニズムを正確に再現するという点では、依然として学術的な課題が残っています。CNNアーキテクチャの設計に人間視覚の特性を統合することが、より知覚的に関連性の高い注目度予測を実現するために不可欠です。一方で、CNNアーキテクチャに内在する誘導的バイアス(inductive biases)により、長距離の文脈情報を十分に表現する能力に欠如しており、これがCNNベースの注目度モデルが人間の視覚行動を模倣する性質を捉えきれない要因となっています。これに対して、自己注意(self-attention)メカニズムを活用することで長距離情報を効果的に符号化できる点で、トランスフォーマーは大きな可能性を示しています。本研究では、CNNにトランスフォーマー部を統合することで、長距離の文脈的視覚情報を捉える新しい注目度予測モデルを提案します。実験結果から、トランスフォーマーが注目度予測に追加の価値をもたらし、性能面での知覚的関連性が向上することが明らかになりました。本研究で提案するトランスフォーマーを用いた注目度モデル「TranSalNet」は、公開ベンチマークおよび注目度予測コンペティションにおいて、優れた成果を達成しました。 本研究で提案する注目度モデル「TranSalNet」のソースコードは以下のURLから公開されています:https://github.com/LJOVO/TranSalNet