コンテキスト・セマンティック品質認識ネットワークによる細かい視覚的分類

類似した外観を持つサブカテゴリ間の微妙ながら特徴的な違いを探索し、採掘することは、細かい視覚的分類(Fine-Grained Visual Categorization: FGVC)において極めて重要です。しかし、抽出された視覚表現の品質評価には十分な努力が払われていません。直感的に、ネットワークは低品質のサンプルから差別的な特徴を捉えることが困難であり、これがFGVCの性能に大幅な低下をもたらす可能性があります。この課題に対処するため、我々は弱い教師あり学習に基づくコンテキスト・セマンティック品質認識ネットワーク(Context-Semantic Quality Awareness Network: CSQA-Net)を提案します。本ネットワークでは、豊富な部分記述子と全体的なセマンティクスとの空間的な文脈関係をモデル化し、対象内のより差別的な詳細を捉えるために、新しいマルチパートおよびマルチスケールクロスアテンション(Multi-Part Multi-Scale Cross-Attention: MPMSCA)モジュールを開発しました。MPMSCAモジュールへの入力前に、スケール混乱問題を解決し、局所的な特徴的な領域を正確に特定するために部分ナビゲータを開発しました。さらに、バックボーンネットワークの異なるレベルから階層的なセマンティクスを段階的に監督し強化する汎用的なマルチレベルセマンティック品質評価モジュール(Multi-Level Semantic Quality Evaluation: MLSQE)を提案します。最後に、MPMSCAからのコンテキスト感知特徴量とMLSQEからのセマンティック強化特徴量は、それぞれの品質プロービング分類器に入力され、リアルタイムでその品質が評価されます。これにより、特徴表現の差別性が向上します。4つの人気があり競争力の高いFGVCデータセットでの包括的な実験により、提案されたCSQA-Netが最先端手法と比較して優れていることが示されました。