RTIC: 그래프 컨볼루션 네트워크를 활용한 텍스트 및 이미지 조합을 위한 잔차 학습

본 논문에서는 이미지 검색을 위한 이미지와 텍스트의 구성 학습(compositional learning)을 연구한다. 쿼리는 원하는 이미지 수정 사항을 설명하는 텍스트와 함께 이미지 형태로 제공되며, 목표는 주어진 수정 사항을 만족하고 쿼리 이미지와 유사한 특성을 지닌 타겟 이미지를, 텍스트 및 이미지 모달리티의 정보를 조합함으로써 검색하는 것이다. 이를 해결하기 위해, 이미지-텍스트 조합 작업에 특화된 새로운 아키텍처를 제안하며, 제안된 구조가 텍스트에 조건부로 기반하여 소스 이미지와 타겟 이미지 간의 차이를 효과적으로 인코딩할 수 있음을 보여준다. 또한, 기존의 모든 조합 방법에 대해 플러그 앤 플레이 방식으로 일반적으로 적용 가능한 그래프 컨볼루션 네트워크 기반의 새로운 공동 학습 기법을 도입한다. 실험 결과, 제안된 기법이 일관되게 성능을 향상시키며 다양한 벤치마크에서 최신 기준(SOTA, state-of-the-art) 성능을 달성함을 확인하였다. 또한, 단순한 학습 하이퍼파라미터 설정으로 인한 오해를 방지하기 위해, 모든 개별 기준 모델을 재현하고 통일된 학습 환경에서 모델을 학습시켰다. 이와 같은 접근은 관련 없는 구성 요소로부터 발생할 수 있는 부정적 영향을 억제하고, 이미지-텍스트 조합 모듈의 본질적인 능력을 강조할 수 있을 것으로 기대된다. 더 나아가, 학습 환경에 제약을 두지 않고도 최신 기준 성능을 달성함으로써, 하이퍼파라미터 튜닝의 이점도 고려할 때 본 방법의 우수성을 시사한다. 코드 및 모든 기준 모델은 https://github.com/nashory/rtic-gcn-pytorch 에 공개되었다.