2ヶ月前

ショウ・アンド・テル:ニューラル画像キャプションジェネレーター

Oriol Vinyals; Alexander Toshev; Samy Bengio; Dumitru Erhan
ショウ・アンド・テル:ニューラル画像キャプションジェネレーター
要約

画像の内容を自動的に説明することは、コンピュータビジョンと自然言語処理を結びつける人工知能における基本的な問題である。本論文では、最近のコンピュータビジョンと機械翻訳の進歩を組み合わせた深層再帰型アーキテクチャに基づく生成モデルを提案する。このモデルは、訓練画像が与えられたときに目標となる説明文の尤度を最大化するように訓練される。複数のデータセットでの実験により、モデルの精度と学習した言語の流暢さが確認された。特に、Pascalデータセットにおける現在の最先端技術(BLEU-1スコア、高いほど良い)が25であるのに対し、当方の手法は59を達成しており、人間の性能(約69)に近づいていることが定量的および定性的に検証されている。また、Flickr30kデータセットではBLEU-1スコアが56から66へ、SBUデータセットでは19から28へ向上している。最後に、新しく公開されたCOCOデータセットにおいてはBLEU-4スコアで27.7を達成し、これは現在の最先端技術である。注:「BLEU-1」や「BLEU-4」などの専門用語については一般的な日本語表記を使用しました。「Pascal」「Flickr30k」「SBU」「COCO」などのデータセット名はそのまま表記しています。

ショウ・アンド・テル:ニューラル画像キャプションジェネレーター | 最新論文 | HyperAI超神経