HyperAI초신경

고품질 데이터셋과 신뢰성 있는 평가를 위한 교차 이미지-텍스트 생성

Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang
발행일: 6/16/2025
고품질 데이터셋과 신뢰성 있는 평가를 위한 교차 이미지-텍스트 생성
초록

최근 대형 다중모드 모델(Large Multimodal Models, LMMs)의 발전으로 다중모드 이해 및 생성 능력이 크게 향상되었습니다. 그러나 이러한 모델들은 여전히 이미지와 텍스트가 밀접하게 결합된 출력을 생성하는 데 어려움을 겪고 있으며, 이는 현재의 훈련 데이터셋이 규모, 품질, 지시문의 다양성 측면에서 제한적이기 때문입니다. 이를 해결하기 위해, Self-Evaluation with Iterative Refinement(SEIR) 방법을 사용하여 구축한 대규모 다중모드 데이터셋인 InterSyn을 소개합니다. InterSyn은 지시문에 기반한 다단계 대화를 특징으로 하며, 이미지와 텍스트가 밀접하게 결합된 응답을 제공하여 다양한 객체를 포함하고 있으며, 엄격한 자동 품질 개선 과정을 거쳐 차세대 지시문 준수 LMMs의 훈련에 적합합니다.또한, 이미지와 텍스트가 결합된 다중모드 출력을 평가할 수 있는 신뢰할 수 있는 평가 도구 부족 문제를 해결하기 위해, SynJudge라는 자동 평가 모델을 소개합니다. SynJudge는 텍스트 내용, 이미지 내용, 이미지 품질, 이미지-텍스트 시너지를 포함하는 네 가지 차원에서 다중모드 출력을 정량적으로 평가하도록 설계되었습니다.실험 연구 결과, SEIR 방법은 개선 과정 없이 동일한 절차로 생성된 데이터셋과 비교해 데이터셋의 품질이 현저히 높아짐을 보여주었습니다. 또한 InterSyn에서 학습된 LMMs는 모든 평가 지표에서 일관된 성능 개선을 보였으며, 이는 InterSyn이 다중모드 시스템의 발전에 유용함을 확인해주었습니다.