Command Palette
Search for a command to run...
Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai

초록
초고해상도(Ultra-high-resolution, UHR) 텍스트-to-이미지(Text-to-Image, T2I) 생성 기술은 최근 눈에 띄는 진전을 보였다. 그러나 두 가지 핵심적인 과제가 여전히 남아 있다. 첫째, 대규모 고품질의 UHR T2I 데이터셋이 부족하다는 점이며, 둘째, UHR 환경에서 미세한 세부사항 생성을 위한 맞춤형 학습 전략이 소홀히 다뤄지고 있다는 점이다. 이러한 첫 번째 과제를 해결하기 위해, 우리는 풍부한 캡션을 갖춘 10만 장의 고해상도 UHR 이미지를 포함하는 고품질 데이터셋인 UltraHR-100K를 제안한다. 이 데이터셋은 다양한 콘텐츠와 뛰어난 시각적 사실감을 제공하며, 각 이미지의 해상도는 3,000 픽셀을 초과하며, 세부사항의 풍부함, 콘텐츠의 복잡성, 미학적 품질을 기준으로 철저히 선별하였다. 두 번째 과제를 해결하기 위해, T2I 확산 모델에서 미세한 세부사항 생성 능력을 향상시키는 주파수 인지(post-training) 방법을 제안한다. 구체적으로, (i) 세부사항 중심 시간단계 샘플링(Detail-Oriented Timestep Sampling, DOTS)을 설계하여 세부사항 생성에 중요한 노이즈 제거 단계에 집중적으로 학습하도록 유도하고, (ii) 소프트 가중 주파수 정규화(Soft-Weighting Frequency Regularization, SWFR)를 도입하여 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 활용해 주파수 성분을 부드럽게 제약함으로써 고주파 성분의 보존을 유도한다. 제안한 UltraHR-eval4K 벤치마크를 기반으로 실시한 광범위한 실험 결과, 본 연구의 접근법이 UHR 이미지 생성의 미세한 세부사항 품질과 전반적인 사실감을 크게 향상시킴을 입증하였다. 코드는 \href{this https URL}{여기}에서 확인할 수 있다.