Command Palette
Search for a command to run...
Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai

要約
超高解像度(UHR)テキストから画像への生成技術は、近年顕著な進展を遂げている。しかし、依然として2つの重要な課題が残っている。第一に、大規模かつ高品質なUHRテキストから画像への生成データセット(T2Iデータセット)の不足であり、第二に、UHR環境における細部の精緻な合成に特化したトレーニング戦略の無視である。第一の課題に対処するため、本研究では、豊富なキャプションを備えた10万枚の高品質UHR画像から構成されるデータセット「UltraHR-100K」を提案する。このデータセットは、多様なコンテンツと高い視覚的忠実度を特徴としており、各画像の解像度は3,000ピクセルを超える。さらに、細部の豊かさ、コンテンツの複雑さ、美的品質に基づいて厳密に選別されたデータで構成されている。第二の課題に対処するため、T2I拡散モデルにおける細部の生成性能を向上させる「周波数感知型ポストトレーニング手法」を提案する。具体的には、(i) 「細部指向型タイムステップサンプリング(DOTS)」を設計し、細部に重要なノイズ除去ステップに学習を集中させる。また、(ii) 「ソフト重み付き周波数正則化(SWFR)」を導入し、離散フーリエ変換(DFT)を用いて周波数成分をソフトに制約することで、高周波成分の保持を促進する。本研究で提案する「UltraHR-eval4K」ベンチマークを用いた広範な実験により、本手法がUHR画像生成における細部の品質および全体的な忠実度を顕著に向上させることを実証した。コードは以下のURLから公開されている:\href{this https URL}{こちら}。