HyperAI

초고해상도(Ultra-high-resolution, UHR) 텍스트-to-이미지(Text-to-Image, T2I) 생성 기술은 최근 눈에 띄는 진전을 보였다. 그러나 두 가지 핵심적인 과제가 여전히 남아 있다. 첫째, 대규모 고품질의 UHR T2I 데이터셋이 부족하다는 점이며, 둘째, UHR 환경에서 미세한 세부사항 생성을 위한 맞춤형 학습 전략이 소홀히 다뤄지고 있다는 점이다. 이러한 첫 번째 과제를 해결하기 위해, 우리는 풍부한 캡션을 갖춘 10만 장의 고해상도 UHR 이미지를 포함하는 고품질 데이터셋인 UltraHR-100K를 제안한다. 이 데이터셋은 다양한 콘텐츠와 뛰어난 시각적 사실감을 제공하며, 각 이미지의 해상도는 3,000 픽셀을 초과하며, 세부사항의 풍부함, 콘텐츠의 복잡성, 미학적 품질을 기준으로 철저히 선별하였다. 두 번째 과제를 해결하기 위해, T2I 확산 모델에서 미세한 세부사항 생성 능력을 향상시키는 주파수 인지(post-training) 방법을 제안한다. 구체적으로, (i) 세부사항 중심 시간단계 샘플링(Detail-Oriented Timestep Sampling, DOTS)을 설계하여 세부사항 생성에 중요한 노이즈 제거 단계에 집중적으로 학습하도록 유도하고, (ii) 소프트 가중 주파수 정규화(Soft-Weighting Frequency Regularization, SWFR)를 도입하여 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 활용해 주파수 성분을 부드럽게 제약함으로써 고주파 성분의 보존을 유도한다. 제안한 UltraHR-eval4K 벤치마크를 기반으로 실시한 광범위한 실험 결과, 본 연구의 접근법이 UHR 이미지 생성의 미세한 세부사항 품질과 전반적인 사실감을 크게 향상시킴을 입증하였다. 코드는 \href{this https URL}{여기}에서 확인할 수 있다.

UltraHR-100K: 대규모 고품질 데이터셋을 통한 UHR 이미지 합성 향상

Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai

초록

AI로 AI 구축

Hyper Newsletters

Command Palette

UltraHR-100K: 대규모 고품질 데이터셋을 통한 UHR 이미지 합성 향상

Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai

초록

AI로 AI 구축

Hyper Newsletters