
초록
이미지를 텍스트로 자동 번역하는 과정은 이미지 장면 이해와 언어 모델링을 포함한다. 본 논문에서는 언어 디코더의 출력 어휘를 디코더 유도 시각적 의미를 이용해 정제하는 새로운 모델인 RefineCap을 제안한다. 이 모델은 시각적 태그어와 이미지 간의 매핑 관계를 암묵적으로 학습한다. 제안된 시각적 개념 정제(Visual-Concept Refinement) 기법을 통해 생성기는 이미지의 의미적 세부 정보에 주목할 수 있게 되어, 더 의미적으로 구체적인 설명문을 생성할 수 있다. 제안된 모델은 기존의 시각적 개념 기반 모델들과 비교하여 MS-COCO 데이터셋에서 우수한 성능을 달성하였다.