17日前

Attend and Guide (AG-Net):キーポイント駆動型アテンションベースの深層ネットワークによる画像認識

Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera
Attend and Guide (AG-Net):キーポイント駆動型アテンションベースの深層ネットワークによる画像認識
要約

本稿では、静止画像における視覚認識に向けた新しいキーポイントベースの注目メカニズムを提案する。特徴的なクラスを識別するための深層畳み込みニューラルネットワーク(CNN)は大きな成功を収めているが、微細な変化を区別する能力については、その性能が十分に発揮されていない。本研究では、微細な変化を意味ある特徴として学習するため、エンドツーエンドのCNNモデルを提案し、独自の注目メカニズムを導入する。このメカニズムは、画像内の意味的領域(Semantic Regions, SRs)およびそれらの空間的分布を特定することで、画像の空間構造を捉え、微細な変化をモデル化する上で鍵となる要素であることが実証された。本手法では、与えられた画像における検出されたキーポイントを自動的にグループ化することで、これらのSRsを特定する。さらに、特定のタスクに最も関連する画像領域に注目する本研究で開発した革新的な注目メカニズムを用いて、各SRの画像認識に対する「有用性」を評価する。このフレームワークは従来の画像認識および微細なクラス分類タスクに適用可能であり、学習や予測に手動でアノテーションされた領域(例:身体部位や物体のバウンディングボックスなど)を必要としない。また、提案するキーポイント駆動型注目メカニズムは、既存のCNNモデルに容易に統合可能である。本フレームワークは、6つの多様なベンチマークデータセット上で評価された結果、Distracted Driver V1(精度:3.39%)、Distracted Driver V2(精度:6.58%)、Stanford-40 Actions(mAP:2.15%)、People Playing Musical Instruments(mAP:16.05%)、Food-101(精度:6.30%)、Caltech-256(精度:2.59%)というデータセットにおいて、既存の最先端手法を顕著な差で上回る性能を示した。

Attend and Guide (AG-Net):キーポイント駆動型アテンションベースの深層ネットワークによる画像認識 | 最新論文 | HyperAI超神経