属性プロトタイプネットワークによる任意ショット学習

任意ショット画像分類は、わずか数点またはゼロサンプルでも新しいクラスを認識することが可能である。ゼロショット学習のタスクにおいては、視覚的属性が重要な役割を果たすことが示されている一方で、ファーウショット体制では属性の効果が十分に調査されていない。視覚的属性に基づく知識を既知のクラスから未知のクラスへより効果的に転送するために、属性位置特定能力を統合した画像表現が任意ショット(ゼロショットおよびファーウショット)画像分類タスクにとって有益であると主張する。この目的のために、我々はクラスレベルの属性のみを使用して判別的な全局特徴量と局所特徴量を共同で学習する新たな表現学習フレームワークを提案する。視覚-意味埋め込み層が全局特徴量を学習する一方で、局所特徴量は中間特徴量から同時に属性を回帰し非相関化する属性プロトタイプネットワークを通じて学習される。さらに、情報豊富な領域を位置特定し切り取るズームインモジュールを導入することで、ネットワークが明示的に情報豊富な特徴量を学習することを促進する。我々の局所性強化された画像表現は、CUB, AWA2, およびSUNといった挑戦的なベンチマークで新たな最先端の成果を達成していることを示す。追加的な利点として、我々のモデルは画像内の属性の視覚的証拠を指摘し、我々の画像表現における改善された属性位置特定能力を確認している。属性位置特定は、真実値部位アノテーションによる定量評価、可視化による定性評価、そして慎重に設計されたユーザースタディを通じて評価される。注:「任意ショット」(Any-shot)という用語は一般的ではなく、「ゼロショット」や「ファーウショット」などの用語とは異なるため、括弧内に原文も記載しました。「ファーウショット」(Few-shot)も同様です。