
要約
コンピュータビジョンのタスクにおいて、画像内の関連領域に注目する能力は、特に重要な特徴が小さく、微細または空間的に散在している場合に、モデルの性能向上に不可欠である。従来の畳み込みニューラルネットワーク(CNN)は、画像のすべての領域を同等に扱うため、特徴抽出が非効率になる傾向がある。この課題に対処するため、本研究では、畳み込み型空間注目(convolutional spatial attention)を活用した新たな注目機構「Vision Eagle Attention」を提案する。このモデルは畳み込み演算を用いて局所的な空間的特徴を捉え、画像の中で最も情報量の高い領域を強調する注目マップを生成する。この注目機構により、モデルは識別的な特徴に焦点を当てつつ、関係の薄い背景情報を抑制することが可能となる。さらに、本研究ではVision Eagle Attentionを軽量なResNet-18アーキテクチャに統合し、効率的かつ強力なモデルの構築を実証した。提案手法の性能は、FashionMNIST、Intel Image Classification、OracleMNISTの3つの広く用いられるベンチマークデータセット上で評価され、主に画像分類を対象とした。実験結果から、本手法が分類精度の向上を達成することが明らかになった。さらに、このアプローチは、物体検出、セグメンテーション、視覚追跡などの他の視覚タスクへも拡張可能であり、多様な視覚ベースの応用に向けた計算効率の高い解決策を提供する可能性を有している。実装コードは以下のURLから公開されている:https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git