17日前
TextDiffuser-2:言語モデルの力を活かしたテキストレンダリング
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei

要約
近年、拡散モデル(diffusion model)は強力な生成モデルとして実証されてきたが、視覚的テキストの生成に関しては依然として課題が残っている。いくつかの手法が、どこにどのようなテキストを描画するかを明示的なテキストの位置および内容によってガイドする方式を導入することで、この問題を緩和している。しかし、これらの手法は依然として、柔軟性や自動化の限界、レイアウト予測能力の制約、スタイルの多様性の乏しさといった複数の課題を抱えている。本論文では、言語モデルの力を活用してテキストレンダリングの性能を引き出すことを目的として、TextDiffuser-2を提案する。まず、大規模言語モデル(large language model)をレイアウト計画に微調整する。この大規模言語モデルは、テキストレンダリング用のキーワードを自動的に生成可能であり、チャット形式によるレイアウトの修正も可能である。次に、拡散モデル内に言語モデルを統合し、行単位で位置とテキストを符号化する。従来の方法が文字単位のきめ細かいガイドを使用していたのに対し、本手法はより多様なテキスト画像を生成することが可能である。広範な実験および人間参加者を対象としたユーザースタディ、さらにGPT-4Vを用いた評価を通じて、TextDiffuser-2がより合理的なテキストレイアウトと生成を実現し、多様性が向上することを検証した。コードおよびモデルは、\url{https://aka.ms/textdiffuser-2}にて公開される予定である。