12일 전

이미지 조화화를 위한 트랜스포머

{Junyu Dong, Bing Zheng, Zhaorui Gu, Haiyong Zheng, Dongsheng Guo, Zonghui Guo}
이미지 조화화를 위한 트랜스포머
초록

이미지 조화화는 복합 이미지가 더 현실감 있게 보이도록 하는 것을 목표로 하는 중요한 연구 과제이며, 도전적인 문제이다. 한 이미지의 전경과 다른 이미지의 배경을 결합하여 생성된 복합 이미지는 각각의 촬영 조건(특히 조명 조건)이 다를 경우, 외관상 조화가 깨진 현상이 발생하게 된다. 기존의 해결 방법들은 주로 전이 학습 기반의 인코더-디코더 아키텍처와 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하여 복합 이미지의 맥락을 추출하고, 전경 주변의 배경이 어떻게 보이는지를 이해하려는 시도를 한다. 본 연구에서는 트랜스포머(Transformer)의 장거리 맥락 의존성 모델링 능력을 활용하여, 이미지 조화화 문제를 해결하고자 한다. 트랜스포머는 전경의 조명을 배경의 조명과 일치하도록 조정하면서도, 구조적 및 의미적 정보는 그대로 유지할 수 있도록 한다. 본 논문에서는 조화화를 위한 트랜스포머 아키텍처를 비분리형과 분리형(디센틀링) 두 가지 형태로 설계하였으며, 포괄적인 실험 및 아블레이션 스터디를 통해 트랜스포머의 강력한 성능을 입증하고, 시각 인식 분야에서 트랜스포머의 잠재력을 탐구한다. 제안된 방법은 이미지 조화화뿐 아니라 이미지 인페인팅 및 이미지 향상(task)에서도 최고 수준의 성능을 달성하여, 그 우수성을 입증한다. 본 연구의 코드와 모델은 https://github.com/zhenglab/HarmonyTransformer 에서 공개되어 있다.

이미지 조화화를 위한 트랜스포머 | 최신 연구 논문 | HyperAI초신경