2ヶ月前

深層埋め込みモデルを用いたゼロショット学習

Li Zhang; Tao Xiang; Shaogang Gong
深層埋め込みモデルを用いたゼロショット学習
要約

ゼロショット学習(ZSL)モデルは、テキストや意味的な説明と物体画像の視覚表現を射影して最近傍探索を行う共通埋め込み空間に依存しています。深層ニューラルネットワークが画像キャプション生成などの他の視覚問題でテキストと画像間のエンドツーエンドモデルを学習することに成功しているにもかかわらず、深層ZSLモデルは非常に少なく、それらが深層特徴表現を利用しながらもエンドツーエンドの埋め込みを学習しないZSLモデルに対して優位性を示すことはほとんどありません。本論文では、深層ZSLモデルが成功するためには適切な埋め込み空間を選択することが重要であると主張します。意味空間や中間空間への埋め込みではなく、視覚空間を埋め込み空間として使用することを提案します。これは、この空間においてその後の最近傍探索がハブネス問題による影響を受けにくく、より効果的になるためです。また、このモデル設計により、複数の意味モダリティ(例えば属性や文章説明)が自然に融合され、エンドツーエンドで共同最適化される仕組みが提供されます。4つのベンチマークにおける広範な実験結果から、我々のモデルは既存のモデルよりも著しく優れていることが示されました。コードは以下のURLから入手可能です: https://github.com/lzrobots/DeepEmbeddingModel_ZSL