2달 전
AI 피드백을 활용한 강화학습을 통해 비디오용 대형 다중모달 모델 조정
Daechul Ahn; Yura Choi; Youngjae Yu; Dongyeop Kang; Jonghyun Choi

초록
최근 대형 언어 모델(Large Language Models)의 발전은 비디오 대형 다중모달 모델(VLMMs)의 개발에 영향을 미쳤습니다. 이전 VLMM 접근 방식은 지시문에 맞춰 조정된 데이터셋을 사용한 감독 학습 세부 조정(Supervised Fine-Tuning, SFT), 시각 인코더와 LLM의 통합, 그리고 추가 학습 가능한 모듈의 추가를 포함했습니다. 비디오와 텍스트 다중모달 정렬은 여전히 어려운 문제로, 이는 텍스트만으로 구성된 데이터보다 부족한 양과 품질의 다중모달 지시문 조정 데이터 때문입니다. 우리는 이러한 문제를 해결하기 위해 새로운 정렬 전략을 제안합니다. 이 전략은 'AI 피드백 강화 학습(Reinforcement Learning from AI Feedback, RLAIF)'이라고 하며, 다중모달 AI 시스템이 스스로를 관리하여 자가 선호도 피드백을 제공하고 이를 통해 비디오와 텍스트 모달 간의 정렬을 촉진하는 방법입니다. 특히, 우리는 선호도 피드백 생성 과정에서 상세한 비디오 설명을 문맥으로 제공하여 비디오 내용 이해를 향상시키는 문맥 인식 보상 모델링(Context-Aware Reward Modeling)을 제안합니다. 다양한 비디오 벤치마크에서 성능 향상을 입증한 우리의 다중모달 RLAIF 접근 방식인 VLM-RLAIF는 기존 접근 방식, 특히 SFT 모델을 능가합니다. 우리는 이 분야에서 더 많은 연구를 촉진하기 위해 코드, 모델 및 데이터셋을 오픈 소스로 공개할 것을 약속드립니다.