17일 전

USIS: 비지도 의미 이미지 합성

George Eskandar, Mohamed Abdelsamad, Karim Armanious, Bin Yang
USIS: 비지도 의미 이미지 합성
초록

세マン틱 이미지 합성(Semantic Image Synthesis, SIS)은 분할 마스크(segmentation mask)에서 실사적인 이미지를 생성하는 이미지 간 번역(image-to-image translation)의 하위 분야이다. 기존의 SIS 연구는 주로 감독 학습(supervised) 문제로 다뤄져 왔다. 그러나 최신 기법들은 방대한 양의 레이블링된 데이터에 의존하며, 비일치(pairwise) 설정에서는 적용이 불가능하다. 반면, 일반적인 비일치 이미지 간 번역 프레임워크는 세마틱 레이아웃을 색상으로 코드화한 후 기존의 컨볼루션 신경망에 입력함으로써 외관(appearance) 간의 대응 관계를 학습하게 되어, 세마틱 콘텐츠에 초점을 맞추지 못해 성능이 떨어진다. 본 연구에서는 쌍(pair)이 존재하는 설정과 비일치 설정 간의 성능 격차를 줄이기 위한 첫 단계로서, 새로운 비감독(Unsupervised) 접근 방식인 세마틱 이미지 합성(USIS)을 제안한다. 특히, 본 프레임워크는 자가감독(self-supervised) 분할 손실을 활용하여 시각적으로 구분 가능한 세마틱 클래스를 출력할 수 있도록 학습하는 SPADE 생성기(generator)를 도입한다. 또한, 실제 이미지의 색상과 질감 분포를 손실 없이 일치시키기 위해 고주파 정보를 유지하면서 전체 이미지 웨이블릿 기반의 구분 기능(discrimination)을 제안한다. 제안한 방법은 3개의 도전적인 데이터셋에서 검증되었으며, 비일치 설정에서도 다중 모달(multimodal)이고 실사적인 이미지를 향상된 품질로 생성할 수 있음을 입증하였다.

USIS: 비지도 의미 이미지 합성 | 최신 연구 논문 | HyperAI초신경