6ヶ月前

概要

細粒度視覚分類（FGVC）に取り組む際の核心は、微細かつ識別的な特徴を学習することにある。従来の多くは、CNNベースのアプローチを用いて、識別的な部分を明示的に選択するか、注目メカニズム（attention mechanism）を統合することでこれを達成してきた。しかし、これらの手法は計算量を増加させやすく、モデルがオブジェクトを多く含む領域に過度に依存する傾向がある。近年、視覚トランスフォーマー（ViT）は一般的な画像認識タスクにおいて最先端（SOTA）の性能を達成している。その自己注意機構（self-attention）は、すべてのパッチから情報を集約・重み付けし、分類用トークン（classification token）に反映するため、FGVCに非常に適している。一方で、深層における分類トークンはグローバルな情報に注目しがちであり、FGVCに不可欠な局所的・低レベル・中レベルの特徴を十分に捉えられないという課題がある。本研究では、各トランスフォーマーレイヤーから重要なトークンを集約することで、局所的・低レベル・中レベルの情報を補完する、純粋なトランスフォーマーに基づく新規フレームワーク「特徴統合視覚トランスフォーマー（Feature Fusion Vision Transformer: FFVT）」を提案する。さらに、追加のパラメータを導入せずに、識別的なトークンを効果的かつ効率的に選択できるようにするため、新たなトークン選択モジュール「相互注意重み選択（Mutual Attention Weight Selection: MAWS）」を設計した。提案手法FFVTは、3つのベンチマークにおいて検証され、いずれにおいても最先端の性能を達成した。

ソースPDF