12日前

より深く見ることで、より豊かな情報を得る:深度認識型画像パラグラフキャプション生成

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
要約

画像の文単位でのキャプション生成が広く利用可能となった一方で、画像の段落レベルでの自動生成はまだ十分に検討されていない状況である。一枚の画像を一連の段落で記述するには、文を順序立てて、一貫性と多様性を保って構成する必要があるため、単一文による記述よりも必然的に高い複雑性を伴う。従来の画像段落キャプション生成手法は、対象物や注目領域を表現する一連の文を出力するが、これらの記述は、対象物や領域を含む画像断片を従来の単文キャプションモデルに投入することで生成される。このアプローチでは、立体的な階層構造や重複のない対象物の記述を保証することが困難である。本論文では、画像の段落キャプションを生成するためのDepth-aware Attention Model(DAM)を提案する。まず、画像領域の奥行きを推定することで、空間的な位置関係に応じた対象物の区別を可能とし、これにより言語デコーダが対象物間の空間的関係を適切に表現できるように導く。このモデルは、論理的かつ一貫性のある形で段落を完成させる。また、注意機構を組み込むことで、段落生成中にモデルが迅速に文の注目点を切り替えることができる一方で、同一対象に対する冗長な記述を回避する。Visual Genomeデータセットを用いた広範な定量的実験およびユーザー調査により、提案モデルの有効性と解釈可能性が実証された。

より深く見ることで、より豊かな情報を得る:深度認識型画像パラグラフキャプション生成 | 最新論文 | HyperAI超神経