2달 전
작은 다중모드 추론 모델의 성능을 자기 일관성 훈련을 통해 더 큰 모델과 맞추기
Cheng Tan; Jingxuan Wei; Zhangyang Gao; Linzhuang Sun; Siyuan Li; Ruifeng Guo; Bihui Yu; Stan Z. Li

초록
다중 모드 추론은 여러 모드를 통합하여 질문에 답하기 위해 모델이 논리적으로 사고해야 하는 어려운 작업입니다. 기존 접근 방식들은 언어와 시각적 모드를 두 단계 추론 프레임워크에 통합함으로써 진전을 이루었으며, 이는 논거 생성과 답변 추론을 분리하는 것입니다. 그러나 이러한 접근 방식들은 종종 생성된 논거의 품질 부족으로 인해 부족한 점이 있습니다. 본 연구에서는 모델 추론에서 논거의 중요성을 탐구합니다. 우리는 논거가 완전히 정확할 때 모델의 정확도가 크게 향상됨을 관찰하였습니다. 이는 고품질의 논거 생성이 필요함을 강조합니다. 이를 바탕으로, 우리는 MC-CoT라는 자기 일관성 학습 전략을 제안합니다. 이 전략은 여러 개의 논거와 답변을 생성한 후, 투표 과정을 통해 가장 정확한 것을 선택합니다. 이 방법은 생성된 논거의 품질뿐만 아니라 더 정확하고 견고한 답변도 도출하도록 합니다. 광범위한 실험을 통해 우리의 접근 방식이 다양한 벤치마크에서 모델 성능을 크게 개선시킨다는 것을 입증하였습니다. 특히, 작은 기본 모델들조차도 우리 제안 방식을 적용하면 큰 모델들과 비슷한 결과를 얻을 수 있음을 보여주었습니다. 이는 우리의 접근 방식이 다중 모드 추론에서 논거의 활용 가능성을 보여주는 것입니다. 코드는 https://github.com/chengtan9907/mc-cot 에서 확인할 수 있습니다.