GRIT: 이중 시각 특징을 활용한 더 빠르고 우수한 이미지 캡션 생성 Transformer

최근의 이미지 캡셔닝 최신 기법들은 이미지의 내용을 정확히 설명하기 위해 개체 수준의 정보를 제공하는 영역 기반 특징(region-based features)을 활용한다. 이러한 특징들은 주로 Faster R-CNN과 같은 객체 탐지기(object detector)를 통해 추출된다. 그러나 이러한 방법들은 맥락 정보의 부족, 탐지 정확도의 저하, 높은 계산 비용 등의 문제를 안고 있다. 첫 번째 두 가지 문제는 그리드 기반 특징(grid-based features)을 추가로 사용함으로써 해결할 수 있다. 그러나 두 가지 유형의 특징을 어떻게 추출하고 융합할지에 대한 방법은 여전히 미해결 과제이다. 본 논문은 이러한 문제를 해결하기 위해, 그리드 기반 및 영역 기반 특징을 효과적으로 활용할 수 있는 단일 Transformer 기반 신경망 아키텍처인 GRIT(Gridded- and Region-based Image captioning Transformer)을 제안한다. GRIT는 이전 기법에서 사용하던 CNN 기반 탐지기를 DETR 기반 탐지기로 대체함으로써 계산 속도를 향상시켰다. 또한, 오직 Transformer만으로 구성된 통합적 설계(monolithic design)를 통해 모델의 엔드 투 엔드(end-to-end) 학습이 가능해졌다. 이 혁신적인 아키텍처와 이중 시각적 특징의 통합은 성능 향상에 크게 기여한다. 여러 이미지 캡셔닝 벤치마크에서의 실험 결과는 GRIT이 이전 기법들에 비해 추론 정확도와 속도 면에서 우수한 성능을 보임을 입증하였다.