2ヶ月前
SUM: マンバを用いた視覚注意モデルのサリエンシー統合
Alireza Hosseini; Amirhossein Kazerouni; Saeed Akhavan; Michael Brudno; Babak Taati

要約
視覚注意モデリングは、視覚刺激の解釈と優先順位付けに重要であり、マーケティング、マルチメディア、ロボティクスなどの応用分野で重要な役割を果たしています。従来の注目度予測モデル、特に畳み込みニューラルネットワーク(CNN)やトランスフォーマーを基盤とするモデルは、大規模なアノテーション付きデータセットを活用することで著しい成功を収めています。しかし、現在の最先端(SOTA)のトランスフォーマーを使用するモデルは計算コストが高く、さらに各画像タイプごとに別々のモデルが必要であるため、統一的なアプローチが欠けています。本論文では、Mambaの効率的な長距離依存関係モデリングとU-Netを統合した新しい手法であるSaliency Unification through Mamba (SUM)を提案します。SUMは新しい条件付き視覚状態空間(C-VSS)ブロックを使用して、自然風景、ウェブページ、商業画像など様々な画像タイプに動的に適応し、異なるデータタイプに対して普遍的な適用性を確保します。5つのベンチマークにおける包括的な評価により、SUMが異なる視覚特性に滑らかに適応し、既存のモデルを一貫して上回ることが示されました。これらの結果は、SUMが多様な視覚コンテンツに対して普遍的に適用可能な堅牢な解決策として位置づけられることを示しており、視覚注意モデリングの進歩に貢献する多用途かつ強力なツールであることが確認されました。