11日前

ControlCap:制御可能な領域レベルのキャプション生成

Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye
ControlCap:制御可能な領域レベルのキャプション生成
要約

領域レベルのキャプション生成は、キャプションの劣化(caption degeneration)という課題に直面している。これは、事前学習されたマルチモーダルモデルが頻度の高いキャプションを生成しがちであり、低頻度のキャプションを漏らす傾向にあることを指す。本研究では、このキャプション劣化問題に対処するため、制御語(control words)をマルチモーダルモデルに導入する制御可能な領域レベルキャプション生成手法(ControlCap)を提案する。具体的には、ControlCapは識別モジュールを用いてキャプション空間内で制御語を生成し、この空間を複数の部分空間に分割する。その後、マルチモーダルモデルは制御語を含む少数の部分空間内でのみキャプションを生成することを制約されるため、低頻度のキャプションを生成する機会が増加し、結果としてキャプション劣化の緩和が実現される。さらに、制御語は人間や専門モデルによってインタラクティブに指定可能であり、これにより学習時に使用されたキャプション空間を超えた生成が可能となり、モデルの汎化能力が向上する。Visual GenomeおよびRefCOCOgデータセットにおける広範な実験の結果、ControlCapはそれぞれCIDErスコアを21.6および2.2向上させ、従来の最先端手法を大きく上回った。コードはhttps://github.com/callsys/ControlCapにて公開されている。

ControlCap:制御可能な領域レベルのキャプション生成 | 最新論文 | HyperAI超神経