2ヶ月前

階層的なアプローチによる説明的な画像段落の生成

Jonathan Krause; Justin Johnson; Ranjay Krishna; Li Fei-Fei
階層的なアプローチによる説明的な画像段落の生成
要約

画像キャプション生成の最近の進展により、自然言語で画像を描写する新しい文章を生成することが可能になりました。しかし、画像を1つの文章に圧縮すると、視覚的な内容は大まかな詳細しか描写できません。一方、多くの領域内のキャプションを生成することで、より細かいレベルで画像を描写できる新しいアプローチであるデンド・キャプショニング(dense captioning)は、画像全体の連続したストーリーを生成することができません。本論文では、これらの制限を超えるために、画像を描写するための全文段落を生成することを目指しています。これにより、詳細かつ統一されたストーリーを伝えることが可能になります。我々は、画像と段落の両方を構成要素に分解するモデルを開発しました。このモデルは、画像内の意味的な領域を検出し、階層的リカレントニューラルネットワークを使用して言語について推論します。言語分析によって段落生成タスクの複雑さが確認され、新規データセットにおける画像と段落ペアに対する徹底的な実験により、我々のアプローチの有効性が示されています。

階層的なアプローチによる説明的な画像段落の生成 | 最新論文 | HyperAI超神経