2달 전
상호 정보 발산: 다중 모드 생성 모델을 위한 통합 메트릭
Jin-Hwa Kim; Yunji Kim; Jiyoung Lee; Kang Min Yoo; Sang-Woo Lee

초록
텍스트-이미지 생성과 이미지 캡셔닝은 최근 기계 지능을 평가하기 위한 새로운 실험적 패러다임으로 부상하고 있습니다. 이들은 생성 과정에서 샘플링 기술을 사용하여 연속적인 양을 예측하므로, 평가가 복잡해지고 주변 분포를 얻는 것이 어려워집니다. 최근 다중모달 생성 평가에서 시각-언어 사전 학습 모델을 활용하는 추세에 따라, 우리는 CLIP 특성을 사용한 음의 가우시안 크로스 상호 정보량(Negative Gaussian Cross-Mutual Information)을 통합된 지표로 제안하며, 이를 상호 정보량 발산(Mutual Information Divergence, MID)이라고 명명합니다. 검증을 위해, 우리는 텍스트-이미지 생성 및 이미지 캡셔닝 작업에서 신중하게 생성되거나 인간이 주석 처리한 판단을 사용하여 경쟁 지표들과 광범위하게 비교하였습니다. 제안된 MID는 벤치마크 간 일관성, 샘플 절약성, 그리고 활용된 CLIP 모델에 대한 강건성을 통해 경쟁 방법들을 크게 능가하였습니다. 우리는 가우시안 크로스 상호 정보량의 다중모달 표현 학습에서 미처 고려되지 않았던 함의들이 이 새로운 제안에 기반한 미래 연구들에서 어떻게 나타날지를 기대하고 있습니다.