
시각적 캡션 생성 분야에서 상당한 진전이 이루어졌으며, 주로 사전 훈련된 특징과 이후 고정된 객체 탐지기 기반의 풍부한 입력을 자동 회귀 모델에 제공하는 방식에 의존하고 있다. 그러나 이러한 방법의 핵심적인 한계는 모델의 출력이 객체 탐지기의 출력에만 조건부로 의존한다는 점이다. 이러한 출력이 필요한 모든 정보를 대표할 수 있다는 가정은 현실적이지 않으며, 특히 탐지기가 서로 다른 데이터셋 간에 전이될 경우 더욱 그렇다. 본 연구에서는 이러한 가정이 유도하는 그래프 모델을 분석하고, 객체 간 관계와 같은 누락된 정보를 표현하기 위한 보조 입력을 도입할 것을 제안한다. 구체적으로, Visual Genome 데이터셋에서 속성과 관계를 탐색하여 캡션 생성 모델이 이를 조건부로 설정하도록 제안한다. 특히, 이러한 맥락 정보를 검색하기 위해 다중 모달 사전 훈련 모델(예: CLIP)의 사용을 제안하며, 그 중요성을 실험적으로 입증한다. 또한, 객체 탐지기 모델은 고정되어 있으며, 캡션 생성 모델이 이를 적절히 기반화하기에 충분한 풍부함을 제공하지 못한다. 이에 따라, 탐지기의 출력과 설명의 출력 모두를 이미지에 조건부로 설정하는 새로운 접근법을 제안하며, 정성적 및 정량적 실험을 통해 이를 통해 기반화(grounding) 품질이 향상됨을 보여준다. 제안한 방법은 이미지 캡션 생성 작업에서 검증되었으며, 각 구성 요소의 기여도와 사전 훈련된 다중 모달 모델의 중요성을 철저히 분석하였고, 현재 최고 수준의 성능을 크게 상회하는 결과를 도출하였다. 특히 CIDEr 지표에서 +7.5%, BLEU-4 지표에서 +1.3%의 성능 향상을 달성하였다.