細粒度視覚分類(Fine-grained Visual Classification, FGVC)は、クラス間の類似性とクラス内での多様性が顕著なため、非常に挑戦的なタスクであり、広範な応用可能性を有している。近年、Vision Transformer(ViT)におけるマルチヘッド自己注意(Multi-head Self-Attention, MSA)機構のデータ固有の特性が、判別力のある特徴表現の抽出に有効であるため、多くの手法がFGVCタスクにおいてViTを導入している。しかしながら、これらの研究は主に高レベルでの特徴依存関係の統合に焦点を当てており、低レベルの背景情報に容易に影響を受けてしまうという課題がある。この問題に対処するため、本研究では細粒度注意領域検出ビジョンTransformer(Fine-grained Attention-locating Vision Transformer, FAL-ViT)と注意選択モジュール(Attention Selection Module, ASM)を提案する。まず、FAL-ViTは画像内の重要な領域を効果的に特定し、パラメータを戦略的に再利用することで特徴を強化する二段階フレームワークを採用している。次に、ASMはMSAの自然なスコアを活用して重要ターゲット領域を正確に位置特定し、位置マッピングによりより詳細な低レベル特徴を抽出することで、より包括的な情報を提供する。公開データセット上での広範な実験結果から、FAL-ViTが他の手法を上回る性能を示した。これにより、本研究で提案する手法の有効性が確認された。ソースコードは以下のURLから公開されている:https://github.com/Yueting-Huang/FAL-ViT。