FitDiT: 고해상도 가상 피팅을 위한 진정한 의류 세부 정보 향상

이미지 기반 가상 피팅 기술이 상당한 발전을 이뤘음에도 불구하고, 새로운 접근 방식들은 다양한 시나리오에서 고해상도와 견고한 피팅 이미지를 생성하는 데 여전히 어려움을 겪고 있습니다. 이러한 방법들은 종종 텍스처 인식 유지와 사이즈 인식 피팅 등의 문제로 인해 전반적인 효율성이 저해됩니다. 이러한 제약 사항을 해결하기 위해, 우리는 고해상도 특성을 위해 더 많은 매개변수와 주의를 할당하는 확산 변환기(Diffusion Transformers, DiT)를 사용하여 고해상도 가상 피팅을 위한 새로운 의류 인식 강화 기술인 FitDiT를 제안합니다.첫째, 텍스처 인식 유지 성능을 더욱 개선하기 위해, 우리는 의류 프라이어(priors) 진화를 통합한 의류 텍스처 추출기를 도입합니다. 이를 통해 줄무늬, 패턴, 텍스트 등과 같은 풍부한 세부 정보를 더 잘 포착할 수 있도록 의류 특성을 미세 조정합니다. 또한, 고주파수 의류 세부 정보를 강화하기 위해 주파수 거리 손실(frequency distance loss)을 맞춤화하여 주파수 영역 학습(frequency-domain learning)을 도입하였습니다.둘째, 사이즈 인식 피팅 문제를 해결하기 위해, 옷의 적절한 길이에 적응할 수 있는 확장-완화 마스크(dilated-relaxed mask) 전략을 사용합니다. 이는 교차 카테고리 피팅 시 전체 마스크 영역을 채우는 옷 생성을 방지합니다. 위의 설계를 갖춘 FitDiT는 정성적 및 정량적 평가 모두에서 모든 베이스라인들을 능가하며, 사진처럼 실제감 있고 복잡한 세부 정보가 포함된 잘 맞는 옷 생성에 뛰어납니다. 또한 DiT 구조 축소 후 단일 1024x768 이미지에 대한 4.57초의 경쟁력 있는 추론 시간을 달성하여 기존 방법들을 앞섰습니다.