
要約
画像分類は、大規模な画像データセットの利用可能性により、近年大きく進歩しました。しかし、細かいカテゴリーの分類は、大量の細かいカテゴリーに対するアノテーションコストが高いため、依然として大きな課題となっています。本プロジェクトでは、ラベル付き訓練データなしでこのようなカテゴリーにおいても優れた分類性能を達成できることを示しています。画像とクラスの埋め込みベクトルが与えられた場合、当該プロジェクトでは一致する埋め込みベクトルに不一致するものよりも高いスコアを割り当てる互換性関数を学習します;ゼロショット分類は、最高の共同互換性スコアを与えるラベルを見つけることで行われます。最新の画像特徴量を使用し、異なる監督付き属性と非監督出力埋め込み(階層から派生したか、またはラベルなしテキストコーパスから学習されたもの)に焦点を当てています。我々はAnimals with AttributesおよびCaltech-UCSD Birdsデータセットにおいて大幅に改善された最先端の成果を確立しました。特に注目に値するのは、純粋に非監督的な出力埋め込み(Wikipediaから学習され、細かいテキストによって改善されたもの)が強力な結果を達成し、以前の監督付き最先端技術を上回っていることです。異なる出力埋め込みを組み合わせることにより、さらに結果を向上させています。