
要約
メトリクスベースのメタ学習技術は、少ショット分類問題に成功裏に適用されてきました。本論文では、クロスモーダル情報を活用してメトリクスベースの少ショット学習手法を強化することを提案します。視覚と意味論的な特徴空間は、定義上異なる構造を持っています。特定の概念については、視覚的な特徴がテキストよりも豊かで識別力が高い場合があります。逆に、他の概念についてはテキストの方が優れていることがあります。さらに、画像分類において視覚情報からの支援が限られている場合でも、意味論的な表現(非監督的なテキストコーパスから学習されたもの)は強力な事前知識や文脈を提供し、学習を助けます。これらの2つの直感に基づいて、新しい画像カテゴリを学習する際に両モーダルの情報を適応的に組み合わせる仕組みを提案します。一連の実験を通じて、この適応的なモーダル組み合わせにより、当モデルはすべてのベンチマークおよび少ショットシナリオで現在の単一モーダルの少ショット学習手法やモーダルアライメント手法を大幅に上回ることが示されました。実験結果はまた、当モデルが両モーダルへの焦点を効果的に調整できることも示しています。特にショット数が非常に少ない場合における性能向上が顕著です。