10일 전
다양한 모달리티 기반 모델의 인지 능력과 설명 가능성을 자기 생성 데이터를 통해 향상시키기
Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu

초록
대규모 다중모달 모델(LMMs)은 다양한 시각적 작업에서 놀라운 능력을 보여주고 있다. 그러나 세부적인 시각적 추론에서는 여전히 어려움을 겪으며, 도메인 특화된 목표를 식별하거나 예측에 대한 타당한 설명을 제공하지 못하는 경우가 많다. 이를 해결하기 위해 우리는 자가 생성 데이터를 활용하여 LMM의 인지 능력과 설명 가능성을 향상시키는 새로운 시각적 거부 샘플링 프레임워크를 제안한다. 구체적으로, 시각적 미세조정은 이미지, 질의(query), 그리고 타겟 답변이 필요하다. 본 연구의 접근법은 인간이 검증 가능한 시각적 특징을 포함하는 해석 가능한 답변을 생성하는 것으로 시작한다. 이러한 특징은 전문가가 정의한 개념을 기반으로 하며, 이미지 콘텐츠와의 일치도를 고려해 신중하게 선택된다. 각 미세조정 라운드 이후, 보상 모델이 없는 필터링 메커니즘을 적용하여 다음 조정 라운드에 사용할 최고 품질의 해석 가능한 답변을 선별한다. 이 데이터 생성과 미세조정의 반복 과정을 통해 모델은 정확하고 합리적인 설명을 생성하는 능력이 점차 향상된다. 실험 결과는 본 방법이 전문적인 시각 분류 작업의 정확성과 설명 가능성을 모두 향상시키는 데 효과적임을 입증한다.