2ヶ月前
キャプションから視覚概念へ、そして逆に
Hao Fang; Saurabh Gupta; Forrest Iandola; Rupesh Srivastava; Li Deng; Piotr Dollár; Jianfeng Gao; Xiaodong He; Margaret Mitchell; John C. Platt; C. Lawrence Zitnick; Geoffrey Zweig

要約
本論文では、画像説明を自動生成する新しい手法について述べる。この手法は、画像キャプションのデータセットから直接学習した視覚検出器、言語モデル、および多モーダル類似性モデルを使用している。頻繁にキャプションに登場する単語(名詞、動詞、形容詞など多くの品詞を含む)の視覚検出器を訓練するために、複数インスタンス学習を用いている。単語検出器の出力は最大エントロピー言語モデルの条件入力として使用される。言語モデルは40万件以上の画像説明から学習し、単語使用の統計を捉える。文レベルの特徴量と深層多モーダル類似性モデルを使用してキャプション候補を再順位付けすることで、全体的な意味論を捉えている。当システムは公式Microsoft COCOベンチマークにおいて最先端であり、BLEU-4スコアで29.1%を達成している。人間評価者が当システムが生成したキャプションと他の人が書いたキャプション(ホールドアウトテストセット上でのもの)を比較した際には、当システムのキャプションが同等またはより高い品質であることが34%の確率で確認された。