概要

最近、大規模なテキストから画像への変換（T2I）モデルが高忠実度の画像生成において優れた性能を示していますが、特定の領域に自由形式のテキスト説明で内容を正確に指定するなどの制御性には限界があります。本論文では、このような領域制御を可能にする効果的な手法を提案します。T2Iモデルの入力に、量子化された空間座標を表す追加の位置トークンセットを導入します。各領域は4つの位置トークンによって上端左隅と下端右隅が指定され、その後に開放的な自然言語による領域説明が続きます。次に、このような新しい入力インターフェースを使用して事前学習済みのT2Iモデルを微調整します。当社のモデルはReCo（Region-Controlled T2I）と呼ばれ、制約のあるカテゴリセットからのオブジェクトラベルではなく、開放的な地域テキストによって任意のオブジェクトの領域制御を可能にします。経験的に、ReCoは位置語彙強化型T2Iモデルよりも高い画像品質（COCOデータセットにおけるFID: 8.82→7.36、SceneFID: 15.54→6.51）を達成し、オブジェクトがより正確に配置されるため、COCOデータセットでの領域分類精度が20.40%向上しました。さらに、ReCoは自由形式の地域説明によりオブジェクト数や空間関係、色やサイズなどの地域属性をよりよく制御できることを示しています。PaintSkillにおける人間評価では、ReCoが正しくオブジェクト数と空間関係を持つ画像生成においてT2Iモデルよりも+19.28%および+17.21%高い精度であることが確認されました。

ソースPDF コードを表示