12日前

Dual-CNN:段落画像キャプション生成のための畳み込み言語デコーダ

{Xiaojie Wang, Fangxiang Feng, Yihui Shi, Haoyun Liang, Ruifan Li}
要約

要約 段落画像キャプション生成のタスクは、与えられた画像を記述する一貫性のある段落を生成することを目的としている。しかし、再帰型ニューラルネットワーク(RNN)や長短期記憶(LSTM)に基づくデコーダーは、長期依存関係を捉える能力に限界があるため、長い段落を含む満足のいくテキスト記述を生成することが困難である。さらに、順次的デコーダーにおける学習効率の低さも顕著に見られる。こうした課題に対し、畳み込みニューラルネットワーク(CNN)の利点に着目し、本論文では長期記憶能力と並列計算を備えたデュアルCNNデコーダーを提案する。このモデルは、画像に対して意味的に一貫性のある段落を生成可能である。提案手法のDual-CNNモデルはスタンフォード画像段落データセットを用いて評価された。広範な実験の結果、本手法は最先端モデルと同等の性能を達成することが示された。さらに、生成された段落の多様性と一貫性についての分析を通じて、本手法の優位性が確認された。

Dual-CNN:段落画像キャプション生成のための畳み込み言語デコーダ | 最新論文 | HyperAI超神経