17日前

LaDiC:画像からテキスト生成において、拡散モデルは本当に自己回帰モデルに劣っているのか?

Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo, Kaikai An, Jianhong Bai, Xu Sun
LaDiC:画像からテキスト生成において、拡散モデルは本当に自己回帰モデルに劣っているのか?
要約

拡散モデル(Diffusion models)は、テキストから画像を生成するタスクにおいて顕著な能力を示している。しかし、画像からテキストを生成する、特に画像キャプション生成(image captioning)の分野では、自己回帰モデル(Auto-Regressive, AR)に比べて性能が劣っており、そのタスクへの適用可能性に疑問が呈されている。本研究では、拡散モデルの再検討を通じて、全体的な文脈モデリング能力および並列デコードの可能性に着目する。これらの利点により、拡散モデルはAR手法が抱える本質的な制約、すなわち推論速度の遅さ、誤差の累積、および一方向性の制約を緩和できる。さらに、拡散モデルの性能が低かった背景には、画像とテキストの対応を効果的に実現するための適切な潜在空間(latent space)の欠如、および連続的な拡散プロセスと離散的なテキストデータとの不整合が存在することを明らかにした。これに対し、我々は新たなアーキテクチャ「LaDiC(Latent-aware Diffusion Captioning)」を提案する。LaDiCは、キャプション専用の潜在空間を構築するために分割型BERT(split BERT)を活用し、異なるテキスト長に対応するための正則化モジュールを統合している。また、本フレームワークは、意味的画像からテキストへの変換を実現する「diffuser」と、推論中にトークン間の相互作用を強化する「Back&Refine」技術を備えている。LaDiCは、MS COCOデータセットにおいて、事前学習や補助モジュールを用いずに、38.2(BLEU@4)および126.2(CIDEr)という拡散モデルベースの手法としては最先端の性能を達成した。これは、ARモデルと同等の競争力を示しており、拡散モデルが画像からテキストへの生成タスクにおいてこれまでに見出されなかった大きな潜在能力を有していることを示している。