
要約
従来のゼロショット学習(ZSL)手法は、一般的に埋め込みを学習し、例えば視覚-意味マッピングなどを通じて、間接的な方法で未見の視覚サンプルを処理します。本論文では、生成対抗ネットワーク(GANs)の利点を活用し、ランダムノイズから意味記述によって条件付けられた未見の特徴量を直接生成できる新しい手法である「不変側生成GAN(LisGAN)」を提案します。具体的には、条件付きワッサースタインGANsを訓練し、ジェネレータがノイズから偽の未見特徴量を合成し、ディスクリミネータが偽と真実を見分ける最小最大ゲームを行います。一つの意味記述が様々な合成された視覚サンプルに対応する可能性があることを考慮し、意味記述は比喩的に生成された特徴量の「魂」と言えるため、本論文では生成ゼロショット学習における不変側として「魂サンプル」を導入します。「魂サンプル」はクラスのメタ表現であり、同じカテゴリ内の各サンプルの最も意味のある側面を可視化します。生成された各サンプル(生成ZSLの変動側)は、同じクラスラベルを持つ少なくとも一つの「魂サンプル」(不変側)に近いように規則化されます。ゼロショット認識段階では、粗い結果から細かい結果へと到達するためにカスケード方式で二つの分類器を使用することを提案します。五つの人気ベンチマークでの実験により、提案手法が最新手法に対して大幅な改善をもたらすことが確認されました。