11일 전
간단한 토큰 수준의 신뢰도가 캡션 정확도를 향상시킨다
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach

초록
이미지에 대한 설명 문장(캡션)이 이미지를 정확히 묘사하고 있는지를 판단하는 능력은 시각-언어 이해의 핵심 요소이다. 그러나 최신 기술 모델들은 미세한 세부 정보의 정확성을 잘못 해석하는 경우가 많아, 생성된 캡션에 존재하지 않는 객체를 환각(홀로그래피)하거나 구성적 추론 능력이 떨어지는 등의 오류를 유발한다. 본 연구에서는 캡션 정확도를 평가하기 위한 간단하면서도 놀라울 정도로 효과적인 방법으로 토큰 수준 신뢰도(Token-Level Confidence, TLC)를 탐구한다. 구체적으로, 이미지 캡션 생성 작업을 위해 시각-언어 모델을 미세조정한 후, 이미지와 제안된 캡션을 모델에 입력하고, 단어 또는 시퀀스에 대해 대수적 또는 학습된 토큰 신뢰도를 통합하여 이미지-캡션 일관성을 추정한다. 사전 훈련된 모델에서 얻은 시퀀스 수준 점수와 비교할 때, 대수적 신뢰도를 사용한 TLC는 SVO-Probes에서 동사 이해 성능에서 상대적으로 10%의 정확도 향상을 달성했으며, Winoground에서 구성적 추론에 대한 이미지 및 그룹 점수에서 각각 상대적으로 37%와 9% 우수한 성능을 보였다. 훈련 데이터가 존재할 경우, 학습된 신뢰도 추정기(Confidence Estimator)를 사용하면 추가적인 성능 향상이 가능하며, MS COCO 캡션 데이터셋에서 객체 환각률을 원래 모델 대비 상대적으로 30% 감소시켜 새로운 최고 성능(SOTA)을 달성하였다.