HyperAIHyperAI

Command Palette

Search for a command to run...

画像が物語を語るとき:段落記述生成における視覚情報と意味情報の役割

Simon Dobnik Nikolai Ilinykh

概要

複数文からなる画像記述の生成は、画像内の顕著な物体を的確かつ一貫性のある段落として描写するため、優れたモデルが要求される困難なタスクである。本研究では、長文の視覚シーン記述において、複数の情報源が有益であると主張する。具体的には、(i) 感覚情報(視覚的知覚)と、(ii) 画像内の内容をどのように記述すべきかに関する意味情報(言語情報)の二つが重要である。さらに、単一モダリティまたはそれらの組み合わせに対して、異なるプーリング機構の効果を比較検討した。その結果、視覚情報と言語情報の両方を活用したモデルが、特定のプーリング機構と組み合わせることで、正確かつ多様な段落を生成可能であることを示した。自動評価および人間評価の結果から、段落生成モデルに意味情報と視覚的刺激を同時に埋め込む学習は簡単ではないことが明らかとなり、今後の実験に向けた多様な提案が提示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています