17日前

Make-A-Scene：人間の先験を活用したシーンベースのテキストから画像生成

Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman

要約

最近のテキストから画像生成手法は、テキストと画像のドメイン間でシンプルかつ魅力的な変換機能を提供している。これらの手法は、生成画像の忠実度やテキストとの整合性において段階的に向上を遂げてきたが、依然としていくつかの重要な課題が残っており、その応用可能性と品質に制限をもたらしている。本研究では、以下の三点によりこれらの課題に取り組む新しいテキストから画像生成手法を提案する。(i) テキストに補完的に機能するシーンを用いたシンプルな制御メカニズムの導入、(ii) 顔や顕著な物体といった重要な画像領域に対してドメイン固有の知識を活用することで、トークン化プロセスを大幅に改善する要素の導入、(iii) Transformerアーキテクチャ向けに分類器フリー・ガイドランス（classifier-free guidance）を適応化する。本モデルは、最先端のFIDスコアおよび人間評価において優れた結果を達成し、512×512ピクセルの高解像度で高忠実度の画像生成を可能にした。シーンの制御性を活用することで、以下の新たな機能を実現した：(i) シーン編集、(ii) アンカーとなるシーンを用いたテキスト編集、(iii) 分布外のテキストプロンプトに対する耐性の向上、(iv) ストーリーの図解生成。これらの機能は、本研究で作成したストーリーを通じて実証されている。