
人間が特定の画像に対して注目し、処理し、分類する方法は、深層学習モデルの性能を著しく向上させる可能性を秘めている。人間の注目領域を活用することで、モデルが正しい判断に必要な本質的な特徴から逸脱している場合に、その誤りを修正することが可能となる。本研究では、細分類(fine-grained classification)のような意思決定プロセスにおいて、人間の注目情報が価値あるものであることを検証するため、人間の注目行動とモデルの説明(explanation)を比較し、重要な特徴を発見する能力を評価した。この目的の下、細分類データセットCUBに対して人間の視線データを収集し、CUB-GHA(Gaze-based Human Attention)という新たなデータセットを構築した。さらに、人間の視線知識を分類モデルに統合するため、視線拡張学習(Gaze Augmentation Training, GAT)と知識統合ネットワーク(Knowledge Fusion Network, KFN)を提案した。これらの手法を、CUB-GHAおよび最近公開された胸部X線画像の医療データセットCXR-Eye(放射線技師の視線データを含む)に適用した結果、人間の注目知識を統合することで分類性能が顕著に向上することが明らかになった。特にCXR-Eyeではベースライン性能を4.38%向上させた。本研究は、細分類における人間の注目メカニズムを理解する上で貴重な知見を提供するとともに、今後のコンピュータビジョンタスクにおける人間の視線情報とAIの統合に関する研究に貢献する。CUB-GHAデータセットおよび実装コードは、https://github.com/yaorong0921/CUB-GHA にて公開されている。