12日前

画像が物語を語るとき:段落記述生成における視覚情報と意味情報の役割

{Simon Dobnik, Nikolai Ilinykh}
画像が物語を語るとき:段落記述生成における視覚情報と意味情報の役割
要約

複数文からなる画像記述の生成は、画像内の顕著な物体を的確かつ一貫性のある段落として描写するため、優れたモデルが要求される困難なタスクである。本研究では、長文の視覚シーン記述において、複数の情報源が有益であると主張する。具体的には、(i) 感覚情報(視覚的知覚)と、(ii) 画像内の内容をどのように記述すべきかに関する意味情報(言語情報)の二つが重要である。さらに、単一モダリティまたはそれらの組み合わせに対して、異なるプーリング機構の効果を比較検討した。その結果、視覚情報と言語情報の両方を活用したモデルが、特定のプーリング機構と組み合わせることで、正確かつ多様な段落を生成可能であることを示した。自動評価および人間評価の結果から、段落生成モデルに意味情報と視覚的刺激を同時に埋め込む学習は簡単ではないことが明らかとなり、今後の実験に向けた多様な提案が提示された。

画像が物語を語るとき:段落記述生成における視覚情報と意味情報の役割 | 最新論文 | HyperAI超神経