
要約
画像から段落を生成する技術は、最近注目を集め、ビデオの要約、編集、および障害者の支援において重要な課題となっています。従来の画像キャプション生成手法は、長くて情報量の多い説明を生成することに適していないため、この分野では不足しています。さらに、古典的な画像キャプションシステムから複数の短い文を単純に連結するだけの方法では、段落の複雑さ——一貫性のある文章、全体的に整合性のある構造、そして多様性——が十分に反映されません。これらの課題に対処するために、我々は「連携ベクトル」(coherence vectors)、「全体トピックベクトル」(global topic vectors)、および画像と段落の関連付けにおける固有の曖昧性をモデル化するための変分オートエンコーダー形式を用いて、段落生成技術を強化することを提案します。開発された手法の効果を2つのデータセットで示し、両方において既存の最先端技術を超える性能を達成しました。