
要約
実世界の画像認識システムは、数万に及ぶクラスを認識する必要があり、これらのクラスは多様な視覚的概念を構成しています。各クラスに対して数千枚の画像をアノテーションするという従来の手法は、このような状況では現実的ではありません。そのため、ウェブ監督データの利用が促されています。本論文では、大量の画像と関連するユーザーコメントを使用して画像認識システムを訓練することについて検討します。特に、画像に関連する任意のフレーズを予測できるビジュアルn-グラムモデルを開発しました。私たちのビジュアルn-グラムモデルは、言語モデリングで一般的に使用されるn-グラムモデルから着想を得た新しい損失関数を使用して訓練されたフィードフォワード畳み込みネットワークです。本研究では、フレーズ予測、フレーズベースの画像検索、画像とキャプションの関連付け、およびゼロショット転移学習におけるモデルの優れた性能を示しています。