Command Palette
Search for a command to run...
보스트: 양방향 가상 시착 및 탈착을 위한 통합적이고 확장 가능한 확산 트랜스포머
보스트: 양방향 가상 시착 및 탈착을 위한 통합적이고 확장 가능한 확산 트랜스포머
Seungyong Lee Jeong-gi Kwak
초록
가상 시착은 특정 의류를 입은 사람의 현실적인 이미지를 합성하는 것을 목표로 하지만, 자세나 외형 변화가 발생할 때에도 정확히 의류와 신체 간의 대응 관계를 모델링하는 것은 여전히 도전적인 과제이다. 본 논문에서는 단일 확산 트랜스포머를 사용하여 가상 시착과 시착 해제를 통합적으로 학습하는 확장 가능한 프레임워크인 Voost를 제안한다. 두 작업을 공동으로 모델링함으로써 Voost는 각 의류-신체 쌍이 양방향으로 상호 감독할 수 있도록 하며, 생성 방향과 의류 카테고리에 대해 유연한 조건부 입력을 지원한다. 이로 인해 전용 네트워크나 보조 손실, 추가 레이블 없이도 의류-신체 간 관계 추론 능력을 향상시킬 수 있다. 또한, 추론 시점에서 두 가지 기법을 도입한다. 먼저, 해상도 또는 마스크 변화에 대해 강건한 성능을 보장하기 위해 주의(attention) 온도 스케일링을 적용하고, 두 작업 간의 이방향 일관성을 활용하는 자체 수정 샘플링(self-corrective sampling) 기법을 제안한다. 광범위한 실험 결과는 Voost가 시착 및 시착 해제 벤치마크에서 최고 수준의 성능을 달성하며, 정렬 정확도, 시각적 사실성, 일반화 능력 측면에서 강력한 기준 모델들을 일관되게 초월함을 보여준다.