9일 전

컨텍스트 예측을 통한 확산 기반 이미지 합성의 성능 향상

Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
컨텍스트 예측을 통한 확산 기반 이미지 합성의 성능 향상
초록

확산 모델은 새로운 종류의 생성 모델로, 예측 불가능한 품질과 다양성으로 인해 이미지 생성 분야에서 획기적인 발전을 이끌고 있다. 기존의 확산 모델은 주로 공간적 축을 따라 픽셀 단위 또는 특징 단위의 제약 조건을 활용해 손상된 이미지로부터 원본 이미지를 재구성하려는 접근 방식을 채택하고 있다. 그러나 이러한 점 기반의 재구성 방식은 각 예측된 픽셀 또는 특징이 이웃 환경 정보를 완전히 보존하지 못할 수 있으며, 이는 확산 기반 이미지 합성의 품질을 저하시킬 수 있다. 한편, 맥락은 자동 감독 신호의 강력한 원천으로서 표현 학습 분야에서 광범위하게 연구되어 왔다. 이러한 사례에 영감을 받아, 본 연구에서는 처음으로 맥락 예측을 통해 확산 기반 이미지 합성의 성능을 향상시키는 ConPreDiff를 제안한다. 학습 단계에서는 확산 제노이징 블록의 마지막에 맥락 디코더를 도입하여 각 점이 이웃 맥락(즉, 다중 스트라이드 특징/토큰/픽셀)을 예측하도록 명시적으로 강화하고, 추론 단계에서는 디코더를 제거한다. 이를 통해 각 점은 이웃 맥락과의 의미적 연결을 유지하면서 더 나은 자기 재구성 가능성을 확보할 수 있다. ConPreDiff의 이러한 새로운 패러다임은 추가적인 파라미터 없이도 임의의 이산적·연속적 확산 백본에 일반화 가능하다. 무조건적 이미지 생성, 텍스트-이미지 생성, 이미지 인페인팅 등의 다양한 실험을 수행한 결과, 기존 방법들을 일관되게 상회하며, MS-COCO 데이터셋에서 제로샷 FID 점수 6.21을 기록하여 새로운 SOTA 성능을 달성하였다.

컨텍스트 예측을 통한 확산 기반 이미지 합성의 성능 향상 | 최신 연구 논문 | HyperAI초신경