2달 전

사기! 이미지 간 사람 이동을 위한 의미론적 크로스 어텐션 모듈레이션

Nicolas Dufour; David Picard; Vicky Kalogeiton
사기! 이미지 간 사람 이동을 위한 의미론적 크로스 어텐션 모듈레이션
초록

최근의 많은 연구는 의미적으로 조건부 이미지 생성을 목표로 하고 있습니다. 이러한 방법 대부분은 포즈 전송이라는 좁은 과제에 집중하고 있으며, 포즈뿐만 아니라 외관과 배경까지 전송하는 더 어려운 주체 전송 과제를 무시하고 있습니다. 본 연구에서는 SCAM (Semantic Cross Attention Modulation)을 소개합니다. 이 시스템은 이미지의 각 의미 영역(전경 및 배경 포함)에 풍부하고 다양한 정보를 인코딩하여, 미세한 세부 사항에 중점을 둔 정확한 생성을 달성합니다. 이는 의미적 주의 변환기 인코더(Semantic Attention Transformer Encoder)가 각 의미 영역에서 여러 잠재 벡터를 추출하고, 해당 생성기가 의미적 크로스 어텐션 모듈레이션을 사용하여 이러한 여러 잠재 벡터를 활용함으로써 가능해집니다. SCAM은 재구성 설정만을 사용하여 학습되며, 주체 전송은 테스트 시간에 수행됩니다. 우리의 분석 결과는 제안된 아키텍처가 각 의미 영역에서 외관의 다양성을 성공적으로 인코딩할 수 있음을 보여줍니다. iDesigner와 CelebAMask-HD 데이터셋을 이용한 광범위한 실험 결과, SCAM이 SEAN과 SPADE를 능가하며, 더욱이 주체 전송 분야에서 새로운 최고 수준을 달성하였습니다.

사기! 이미지 간 사람 이동을 위한 의미론적 크로스 어텐션 모듈레이션 | 최신 연구 논문 | HyperAI초신경