17일 전

이미지 캡셔닝을 위한 X-Linear Attention 네트워크

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei
이미지 캡셔닝을 위한 X-Linear Attention 네트워크
초록

최근 미세한 계층 구분 시각 인식과 시각 질문 응답 분야에서 이중 풀링(Bilinear Pooling) 기법이 다중 모달 입력 간의 2차 상호작용을 효과적으로 모델링할 수 있다는 점에서 주목받아 왔다. 그러나 이미지 캡셔닝(Image Captioning) 작업에서 이러한 상호작용을 주의 집중(attention) 메커니즘과 동시에 구현할 수 있다는 증거는 아직 부족했다. 본 논문에서는 이중 풀링을 완전히 활용하여 시각 정보를 선택적으로 활용하거나 다중 모달 추론을 수행할 수 있는 통합적인 주의 블록, 즉 X-Linear 주의 블록(X-Linear Attention Block)을 제안한다. 기술적으로 X-Linear 주의 블록은 입력의 단일 모달 또는 다중 모달 특징 간의 2차 상호작용을 포착하기 위해 공간적 및 채널별 이중 주의 분포를 동시에 활용한다. 여러 개의 X-Linear 주의 블록을 쌓음으로써 고차원 특징 상호작용(2차 이상, 무한 차수까지)을 매개변수 없이 간단히 모델링할 수 있으며, 이때 각 블록에 지수선형 단위(Exponential Linear Unit, ELU)를 적용함으로써 이를 가능하게 한다. 또한 본 연구는 X-Linear 주의 블록을 이미지 인코더와 문장 디코더에 새로이 통합한 X-Linear 주의 네트워크(X-LAN)를 제안한다. 이는 이미지 캡셔닝 모델 내에서 고차원의 내모달 및 간모달 상호작용을 효과적으로 활용할 수 있도록 한다. COCO 기준 데이터셋에서의 실험 결과, 본 연구의 X-LAN은 현재까지 공개된 최고 성능을 기록하며, COCO Karpathy 테스트 분할에서 CIDEr 점수 132.0%를 달성하였다. 또한 Transformer 아키텍처에 X-Linear 주의 블록을 추가하면 CIDEr 점수가 132.8%까지 향상된다. 소스 코드는 \url{https://github.com/Panda-Peter/image-captioning}에서 공개되어 있다.