CLIP 보상과 함께 미세한 이미지 캡셔닝

현대의 이미지 캡셔닝 모델은 일반적으로 텍스트 유사도 목표 함수를 통해 학습된다. 그러나 공개 데이터셋에 존재하는 참조 캡셔닝은 보통 가장 두드러진 일반적인 객체를 묘사하기 때문에, 텍스트 유사도 목표 함수를 사용해 학습된 모델은 다른 이미지와 구별되는 특정하고 세부적인 이미지 특징을 무시하는 경향이 있다. 더 구체적이고 독창적인 캡셔닝 생성을 위해, 우리는 웹에서 수집한 방대한 이미지-텍스트 쌍을 기반으로 다중모달 인코더로 학습된 CLIP을 활용하여 다중모달 유사도를 계산하고 이를 보상 함수로 사용하는 방안을 제안한다. 또한 추가적인 텍스트 레이블이 필요 없는 간단한 CLIP 텍스트 인코더의 미세조정 전략을 제안하여 문법적 정확도를 향상시킨다. 이는 보상 계산 과정에서 참조 캡셔닝의 필요성을 완전히 제거한다. 설명성 캡셔닝을 종합적으로 평가하기 위해, 전반적, 배경, 객체, 관계 등 세밀한 기준을 갖춘 새로운 평가 데이터셋인 FineCapEval을 도입한다. 텍스트-이미지 검색 및 FineCapEval에서의 실험 결과, 제안하는 CLIP 가이드 모델이 CIDEr 최적화 모델보다 더 독창적인 캡셔닝을 생성함을 확인했다. 또한, CLIP 텍스트 인코더에 대한 비지도 문법 미세조정이 단순한 CLIP 보상 함수의 품질 저하 문제를 완화함을 보였다. 마지막으로, 인간 평가를 통해 평가자들이 다양한 기준에서 CIDEr 및 MLE 목적함수보다 CLIP 보상 함수를 선호함을 확인했다. 코드 및 데이터: https://github.com/j-min/CLIP-Caption-Reward