2달 전

주의 기반 다중 모드 이미지 매칭

Moreshet, Aviad ; Keller, Yosi

초록

우리는 멀티모달 이미지 패치 매칭을 위해 주의 기반 접근법을 제안합니다. 이 접근법은 다중 스케일 시아메즈 CNN의 특성 맵에 주목하는 트랜스포머 인코더를 사용합니다. 우리의 인코더는 다중 스케일 이미지 임베딩을 효율적으로 집계하면서 작업별로 불변인 이미지 큐를 강조하는 것으로 입증되었습니다. 또한, 인코더를 우회하는 잔차 연결(residual connection)을 사용한 주의-잔차 구조(attention-residual architecture)를 소개합니다. 이 추가적인 학습 신호는 처음부터 끝까지(end-to-end) 스크래치에서 훈련을 용이하게 합니다. 실험 결과, 우리의 접근법은 멀티모달 및 단일 모달 벤치마크에서 새로운 최고 수준의 정확도를 달성한 것으로 나타났습니다. 이는 그 일반적인 적용 가능성을 보여줍니다. 우리 지식으로 미루어볼 때, 이것은 트랜스포머 인코더 구조가 멀티모달 이미지 패치 매칭 작업에 성공적으로 적용된 첫 번째 사례입니다.