사진처럼 사실적인 가상 착용을 위한 적응적 생성$\leftrightarrow$보존 이미지 콘텐츠 생성

이미지 시각적 피팅(visual try-on)은 대상 의류 이미지를 참조 인물에 전달하는 것을 목표로 하며, 최근 몇 년간 주목받는 연구 주제가 되었다. 기존의 방법들은 일반적으로 인체 자세가 임의로 변형될 때에도 의류 이미지의 특성(예: 질감, 로고, 자수 등)을 유지하는 데 초점을 맞추고 있다. 그러나 참조 인물에 큰 가림막(occlusion)과 복잡한 자세가 존재할 경우, 사실적인 사진 수준의 피팅 이미지를 생성하는 것은 여전히 큰 도전 과제로 남아 있다. 이러한 문제를 해결하기 위해 본 연구는 새로운 시각적 피팅 네트워크인 적응형 콘텐츠 생성 및 보존 네트워크(Adaptive Content Generating and Preserving Network, ACGPN)를 제안한다. 특히 ACGPN은 피팅 후 참조 이미지에서 변화가 예상되는 영역의 의미적 레이아웃(예: 긴팔 셔츠 → 팔, 팔 → 자켓)을 먼저 예측하고, 예측된 의미적 레이아웃을 기반으로 각 영역의 이미지 콘텐츠가 생성되어야 할지 또는 보존되어야 할지를 판단함으로써 사실적인 피팅 이미지와 풍부한 의류 세부 정보를 생성한다. ACGPN은 일반적으로 세 가지 주요 모듈로 구성된다. 첫째, 의미적 레이아웃 생성 모듈은 참조 이미지의 의미적 세그멘테이션 정보를 활용하여 피팅 후 원하는 의미적 레이아웃을 점진적으로 예측한다. 둘째, 의류 왜곡(warping) 모듈은 생성된 의미적 레이아웃을 기반으로 의류 이미지를 왜곡하며, 학습 과정에서 왜곡의 안정성을 높이기 위해 이차 차분 제약(second-order difference constraint)을 도입한다. 셋째, 콘텐츠 융합을 위한 인페인팅(inpainting) 모듈은 참조 이미지, 의미적 레이아웃, 왜곡된 의류 등 모든 정보를 통합하여 인체 각 의미적 영역에 대해 적응적으로 출력을 생성한다. 기존 최첨단 기법들과 비교했을 때, ACGPN은 더 뛰어난 시각적 품질과 풍부한 미세 세부 정보를 갖춘 사실적인 이미지를 생성할 수 있다.