2ヶ月前

多モーダル循環一致性一般化ゼロショット学習

Rafael Felix; B. G. Vijay Kumar; Ian Reid; Gustavo Carneiro
多モーダル循環一致性一般化ゼロショット学習
要約

汎化ゼロショット学習(GZSL)においては、クラスの集合が既知クラスと未知クラスに分割されます。訓練では、既知クラスと未知クラスの意味論的特徴および、視覚的表現を用いて行われますが、その際に未知クラスの視覚的表現は使用されません。一方で、テストでは既知クラスと未知クラスの視覚的表現が利用されます。現行の手法は、視覚空間から意味論的空间への変換を学習することでGZSLに対処し、これらの空間におけるクラス分布が比較的類似しているという仮定を探求しています。しかし、このような手法はしばしば未知のテストデータの視覚的表現を正解する未知クラスではなく、既知クラスの意味論的特徴へと変換してしまう傾向があり、結果としてGZSL分類の精度が低くなることがあります。最近では、生成対抗ネットワーク(GAN)を使用して未知クラスの意味論的特徴から視覚的表現を合成することが探られています。既知クラスと未知クラスの合成された視覚的表現は、その後GZSL分類器の訓練に使用されます。このアプローチはGZSL分類精度を向上させることが示されていますが、多様なモード間の一貫性を持つ制約下で合成された視覚的表現が元の意味論的特徴を再生成できる保証はありません。この制約により、合成された視覚的表現が十分にその意味論的特徴を表していない可能性があります。本稿では、GAN訓練に対する新たな正則化に基づくこのような制約を使用することを提案します。この正則化により生成された視覚的な特徴量が元々の意味論的な特徴量を再構築するように強制します。当モデルが多様なモード間の一貫性を持つ意味論的一致性で訓練されると、既知クラスだけでなく特に未知クラスに対してより代表的な視覚的な表現を合成することができます。我々が提案するアプローチは複数の公開データセットにおいて最高のGZSL分類結果を示しています。