2달 전

문맥 인식 레이아웃에서 이미지 생성: 개선된 객체 표현

He, Sen ; Liao, Wentong ; Yang, Michael Ying ; Yang, Yongxin ; Song, Yi-Zhe ; Rosenhahn, Bodo ; Xiang, Tao
문맥 인식 레이아웃에서 이미지 생성: 개선된 객체 표현
초록

레이아웃을 이미지로(L2I) 생성하는 모델은 주어진 레이아웃에 기반하여 자연 배경(스터프) 위에 여러 객체(싱스)를 포함하는 복잡한 이미지를 생성하는 것을 목표로 합니다. 최근 생성적 적대 네트워크(GANs)의 발전을 바탕으로, 기존 L2I 모델들은 큰 진전을 이룩하였습니다. 그러나 그들이 생성한 이미지를 자세히 살펴보면 두 가지 주요 제약 사항이 드러납니다: (1) 객체 간 관계 및 객체-배경 관계가 종종 깨지고 (2) 각 객체의 외관이 해당 객체 클래스의 핵심 정의 특성을 부족하게 왜곡되는 경향이 있습니다. 우리는 이러한 문제들이 생성자에서 문맥 인식 객체 및 배경 특성 인코딩의 부족과 판별자에서 위치 감응 외관 표현의 부족 때문이라고 주장합니다. 이러한 제약 사항을 해결하기 위해 본 연구에서는 두 가지 새로운 모듈을 제안합니다. 첫째, 생성자에 문맥 인식 특성 변환 모듈을 도입하여 장면 내 다른 공존하는 객체/배경에 대한 인식을 보장합니다. 둘째, 위치와 무관한 이미지 특성을 판별자에 입력하는 대신, 생성된 객체 이미지의 피처 맵에서 계산된 그램 행렬을 사용하여 위치 감응 정보를 유지함으로써 객체 외관이 크게 향상됩니다. 광범위한 실험 결과, 제안된 방법론이 COCO-Thing-Stuff 및 Visual Genome 벤치마크에서 최고 수준의 성능을 달성하였음을 확인할 수 있었습니다.

문맥 인식 레이아웃에서 이미지 생성: 개선된 객체 표현 | 최신 연구 논문 | HyperAI초신경