HyperAIHyperAI

Command Palette

Search for a command to run...

Make-A-Scene:人間の先験を活用したシーンベースのテキストから画像生成

Oran Gafni Adam Polyak Oron Ashual Shelly Sheynin Devi Parikh Yaniv Taigman

概要

最近のテキストから画像生成手法は、テキストと画像のドメイン間でシンプルかつ魅力的な変換機能を提供している。これらの手法は、生成画像の忠実度やテキストとの整合性において段階的に向上を遂げてきたが、依然としていくつかの重要な課題が残っており、その応用可能性と品質に制限をもたらしている。本研究では、以下の三点によりこれらの課題に取り組む新しいテキストから画像生成手法を提案する。(i) テキストに補完的に機能するシーンを用いたシンプルな制御メカニズムの導入、(ii) 顔や顕著な物体といった重要な画像領域に対してドメイン固有の知識を活用することで、トークン化プロセスを大幅に改善する要素の導入、(iii) Transformerアーキテクチャ向けに分類器フリー・ガイドランス(classifier-free guidance)を適応化する。本モデルは、最先端のFIDスコアおよび人間評価において優れた結果を達成し、512×512ピクセルの高解像度で高忠実度の画像生成を可能にした。シーンの制御性を活用することで、以下の新たな機能を実現した:(i) シーン編集、(ii) アンカーとなるシーンを用いたテキスト編集、(iii) 分布外のテキストプロンプトに対する耐性の向上、(iv) ストーリーの図解生成。これらの機能は、本研究で作成したストーリーを通じて実証されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Make-A-Scene:人間の先験を活用したシーンベースのテキストから画像生成 | 記事 | HyperAI超神経