6ヶ月前

マルチモーダル

ディープラーニング

マルチモーダル

コンピュータビジョン

Marc'Aurelio Ranzato Jeff Dean Samy Bengio Jon Shlens Greg S. Corrado Andrea Frome Tomas Mikolov

概要

現代の視覚認識システムは、多数の物体カテゴリにスケーラブルである能力に制限を受けることが多くある。この制限の一つの原因は、物体カテゴリの数が増えるにつれて、ラベル付き画像という形での十分な訓練データを獲得することがますます難しくなることにある。この問題への解決策の一つとして、テキストデータなどの他のデータソースを活用し、視覚モデルの学習と予測の制約に用いることが挙げられる。本論文では、ラベル付き画像データと、ラベルなしテキストから得られる意味情報の両方を用いて視覚的オブジェクトを識別できる新しい深層視覚-意味埋め込みモデルを提案する。我々は、このモデルが1000クラスのImageNet物体認識チャレンジにおいて最先端の性能を達成しつつ、より意味的に妥当な誤りを犯すことを実証した。さらに、学習中に観測されなかった数万の画像ラベルについても、意味情報を利用することで予測が可能であることを示した。意味知識を活用することにより、ゼロショット予測の性能は最大65％向上し、視覚モデルが一度も見ることのなかった数千の新規ラベルに対しても、最高10％のヒット率を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

ディープラーニング

マルチモーダル

コンピュータビジョン

Marc'Aurelio Ranzato Jeff Dean Samy Bengio Jon Shlens Greg S. Corrado Andrea Frome Tomas Mikolov

概要

現代の視覚認識システムは、多数の物体カテゴリにスケーラブルである能力に制限を受けることが多くある。この制限の一つの原因は、物体カテゴリの数が増えるにつれて、ラベル付き画像という形での十分な訓練データを獲得することがますます難しくなることにある。この問題への解決策の一つとして、テキストデータなどの他のデータソースを活用し、視覚モデルの学習と予測の制約に用いることが挙げられる。本論文では、ラベル付き画像データと、ラベルなしテキストから得られる意味情報の両方を用いて視覚的オブジェクトを識別できる新しい深層視覚-意味埋め込みモデルを提案する。我々は、このモデルが1000クラスのImageNet物体認識チャレンジにおいて最先端の性能を達成しつつ、より意味的に妥当な誤りを犯すことを実証した。さらに、学習中に観測されなかった数万の画像ラベルについても、意味情報を利用することで予測が可能であることを示した。意味知識を活用することにより、ゼロショット予測の性能は最大65％向上し、視覚モデルが一度も見ることのなかった数千の新規ラベルに対しても、最高10％のヒット率を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています