8ヶ月前

畳み込みニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Ang Li* Allan Jabri Armand Joulin Laurens van der Maaten

概要

実世界の画像認識システムは、数万に及ぶクラスを認識する必要があり、これらのクラスは多様な視覚的概念を構成しています。各クラスに対して数千枚の画像をアノテーションするという従来の手法は、このような状況では現実的ではありません。そのため、ウェブ監督データの利用が促されています。本論文では、大量の画像と関連するユーザーコメントを使用して画像認識システムを訓練することについて検討します。特に、画像に関連する任意のフレーズを予測できるビジュアルn-グラムモデルを開発しました。私たちのビジュアルn-グラムモデルは、言語モデリングで一般的に使用されるn-グラムモデルから着想を得た新しい損失関数を使用して訓練されたフィードフォワード畳み込みネットワークです。本研究では、フレーズ予測、フレーズベースの画像検索、画像とキャプションの関連付け、およびゼロショット転移学習におけるモデルの優れた性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Ang Li* Allan Jabri Armand Joulin Laurens van der Maaten

概要

実世界の画像認識システムは、数万に及ぶクラスを認識する必要があり、これらのクラスは多様な視覚的概念を構成しています。各クラスに対して数千枚の画像をアノテーションするという従来の手法は、このような状況では現実的ではありません。そのため、ウェブ監督データの利用が促されています。本論文では、大量の画像と関連するユーザーコメントを使用して画像認識システムを訓練することについて検討します。特に、画像に関連する任意のフレーズを予測できるビジュアルn-グラムモデルを開発しました。私たちのビジュアルn-グラムモデルは、言語モデリングで一般的に使用されるn-グラムモデルから着想を得た新しい損失関数を使用して訓練されたフィードフォワード畳み込みネットワークです。本研究では、フレーズ予測、フレーズベースの画像検索、画像とキャプションの関連付け、およびゼロショット転移学習におけるモデルの優れた性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています