13日前
一貫性を保つ:反復的マルチエージェント通信を用いた画像ストリームからのトピック認識型物語生成
Ruize Wang, Zhongyu Wei, Ying Cheng, Piji Li, Haijun Shan, Ji Zhang, Qi Zhang, Xuanjing Huang

要約
視覚的ストーリーテリングは、画像の連続から自動的に物語文を生成することを目的としている。従来のアプローチは、各画像に対して独立にテキスト記述を生成し、それを粗く連結して物語とするが、この手法は意味的に整合性のないコンテンツを生成するという問題を抱えている。本研究では、画像ストリームの全体的な意味的文脈を検出するためのトピック記述タスクを導入することで、視覚的ストーリーテリングの新しいアプローチを提案する。その後、得られたトピック記述をガイドとして物語を構築する。2つの生成タスクを統合するため、トピック記述生成器と物語生成器を2つのエージェントとして捉え、反復更新機構を用いて同時に学習するマルチエージェント通信フレームワークを提案する。本手法はVISTデータセット上で検証され、定量的評価、アブレーション実験および人間評価の結果から、最先端手法と比較してより高品質な物語生成能力を有していることが示された。