12日前

DeViSE:ディープ・ビジュアル・セマンティック埋め込みモデル

{Marc'Aurelio Ranzato, Jeff Dean, Samy Bengio, Jon Shlens, Greg S. Corrado, Andrea Frome, Tomas Mikolov}
DeViSE:ディープ・ビジュアル・セマンティック埋め込みモデル
要約

現代の視覚認識システムは、多数の物体カテゴリにスケーラブルである能力に制限を受けることが多くある。この制限の一つの原因は、物体カテゴリの数が増えるにつれて、ラベル付き画像という形での十分な訓練データを獲得することがますます難しくなることにある。この問題への解決策の一つとして、テキストデータなどの他のデータソースを活用し、視覚モデルの学習と予測の制約に用いることが挙げられる。本論文では、ラベル付き画像データと、ラベルなしテキストから得られる意味情報の両方を用いて視覚的オブジェクトを識別できる新しい深層視覚-意味埋め込みモデルを提案する。我々は、このモデルが1000クラスのImageNet物体認識チャレンジにおいて最先端の性能を達成しつつ、より意味的に妥当な誤りを犯すことを実証した。さらに、学習中に観測されなかった数万の画像ラベルについても、意味情報を利用することで予測が可能であることを示した。意味知識を活用することにより、ゼロショット予測の性能は最大65%向上し、視覚モデルが一度も見ることのなかった数千の新規ラベルに対しても、最高10%のヒット率を達成した。

DeViSE:ディープ・ビジュアル・セマンティック埋め込みモデル | 最新論文 | HyperAI超神経