17일 전
초세분화된 의미 레이블을 활용한 분리형 박스 제안 및 특성화는 이미지 캡셔닝 및 시각적 질의 응답 성능을 향상시킨다
Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut

초록
객체 탐지 는 이미지 캡션 생성 및 시각적 질의 응답과 같은 현재의 시각-언어 과제 해결에 중요한 역할을 한다. 그러나 흔히 사용되는 모델인 Faster R-CNN은 경계 박스와 해당되는 의미적 레이블에 대한 정확한 레이블링 과정이 필수적이며, 이는 비용이 큰 작업이므로 전이 학습을 위한 기본 과제로는 적합하지 않다. 본 논문에서는 하류 과제를 위한 박스 제안(박스 제안)과 특징 추출을 분리하는 것의 효과를 검토한다. 핵심 통찰은 이러한 분리가 기존 표준 객체 탐지 벤치마크에 사용되지 못했던 방대한 양의 레이블링 데이터를 활용할 수 있음을 의미한다. 실증적으로, 이러한 접근이 전이 학습을 효과적으로 수행하며, 공개된 벤치마크를 기준으로 이미지 캡션 생성 및 시각적 질의 응답 모델의 성능을 향상시킴을 입증하였다.