17일 전

이미지-텍스트 매칭을 위한 플러그 앤 플레이 규제기

Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu
이미지-텍스트 매칭을 위한 플러그 앤 플레이 규제기
초록

세부적인 대응 관계와 시각-의미적 정렬을 활용한 이미지-텍스트 매칭 기술은 큰 잠재력을 보여주고 있다. 일반적으로 최근의 접근 방식은 먼저 교차 모달 주의(attention) 단위를 사용하여 은닉된 영역-단어 상호작용을 탐지한 후, 모든 정렬 정보를 통합하여 최종 유사도를 도출한다. 그러나 대부분의 기법들은 복잡한 아키텍처나 추가 정보를 사용하면서도 단일 forward 전파 전략 또는 집계 방식을 채택하며, 네트워크 피드백의 조절 능력을 간과하고 있다. 본 논문에서는 교차 모달 표현을 자동으로 맥락화하고 집계하기 위해 효과적으로 메시지를 인코딩할 수 있는 간단하지만 매우 효과적인 두 가지 조절기(Regulator)를 제안한다. 구체적으로, (i) 반복적 대응 조절기(Recurrent Correspondence Regulator, RCR)는 적응형 주의 가중치를 통해 교차 모달 주의 단위를 점진적으로 향상시켜 보다 유연한 대응 관계를 포착하도록 하며, (ii) 반복적 집계 조절기(Recurrent Aggregation Regulator, RAR)는 반복적으로 집계 가중치를 조정하여 중요한 정렬 정보는 점점 강조하고, 부차적인 정보는 점차 약화시킨다. 또한 흥미롭게도, RCR와 RAR는 플러그 앤 플레이(Plug-and-Play) 형태로 구현 가능하다. 즉, 다양한 교차 모달 상호작용 기반 프레임워크에 간편하게 통합되어 상당한 성능 향상을 가져올 수 있으며, 두 조절기 간의 협업은 추가적인 성능 개선을 가능하게 한다. MSCOCO 및 Flickr30K 데이터셋에서 실시한 광범위한 실험 결과, 제안된 방법은 여러 모델에서 놀라운 일관성 있는 R@1 성능 향상을 보여주며, 제안된 기법의 일반적 효과성과 일반화 능력을 입증한다. 코드 및 사전 학습 모델은 다음 링크에서 제공된다: https://github.com/Paranioar/RCAR.

이미지-텍스트 매칭을 위한 플러그 앤 플레이 규제기 | 최신 연구 논문 | HyperAI초신경