12日前

インタラクティブなキーバリューメモリ拡張型アテンションによる画像パラグラフキャプション生成

{Jinwen Tian, Min Yang, Xiang Ao, Chengming Li, Yu Li, Chunpu Xu}
インタラクティブなキーバリューメモリ拡張型アテンションによる画像パラグラフキャプション生成
要約

画像パラグラフキャプション生成(Image Paragraph Captioning, IPC)は、画像の視覚的コンテンツを詳細かつ一貫性のある文章として生成することを目的としている。深層ニューラルネットワークの発展により、この分野では顕著な進展が見られ、その中で注目機構(attention mechanism)が重要な役割を果たしている。しかし、従来の注目機構は過去のアライメント情報を無視しがちであり、その結果、繰り返しの記述や記述の不完全さといった問題が生じることがある。本論文では、デコーダー状態の更新連鎖と併せて注目履歴(注目すべき対象のカバレッジ情報)を追跡できるようにするため、インタラクティブなキー・バリュー記憶を拡張した注目機構を備えた画像パラグラフキャプションモデル「IMAP(Interactive key-value Memory-augmented Attention for image Paragraph captioning)」を提案する。これにより、重複や不完全な画像記述の生成を回避することが可能となる。さらに、画像領域からキャプション語に至るアライメントを適応的に実現するため、適応的注目機構を導入している。この機構により、1つの画像領域が任意の数のキャプション語に対応可能であり、逆に1つのキャプション語も任意の数の画像領域に注目できる。標準データセット(スタンフォードデータセット)における広範な実験により、本研究で提案するIMAPモデルの有効性が実証された。

インタラクティブなキーバリューメモリ拡張型アテンションによる画像パラグラフキャプション生成 | 最新論文 | HyperAI超神経