11일 전

RLHF-V: 세부적인 수정형 인간 피드백을 통한 행동 일치를 통한 신뢰할 수 있는 MLLMs 지향

Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
RLHF-V: 세부적인 수정형 인간 피드백을 통한 행동 일치를 통한 신뢰할 수 있는 MLLMs 지향
초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 최근 다중모달 이해, 추론 및 상호작용 능력에서 놀라운 성과를 보여주고 있다. 그러나 기존의 MLLMs는 관련 이미지에 기반하지 않은 사실적으로 잘못된 텍스트를 생성하는 심각한 환각(Hallucination) 문제를 겪고 있으며, 이는 기존 MLLMs의 신뢰성을 저하시켜 실제(특히 고위험도) 응용 분야에서의 활용 가능성을 크게 제한한다. 이러한 문제를 해결하기 위해 우리는 세분화된 수정형 인간 피드백을 통한 행동 일치(Behavior Alignment)를 통해 MLLM의 신뢰성을 향상시키는 RLHF-V를 제안한다. 구체적으로 RLHF-V는 환각에 대한 세그먼트 수준의 수정 형태로 인간 선호 데이터를 수집하고, 인간 피드백에 대해 밀도 높은 직접적 선호 최적화(Dense Direct Preference Optimization)를 수행한다. 자동 평가 및 인간 평가를 포함한 다섯 가지 벤치마크에서 실시한 종합적인 실험 결과, RLHF-V는 뛰어난 데이터 및 계산 효율성을 바탕으로 MLLM의 신뢰성 있는 행동을 크게 향상시킬 수 있음을 입증하였다. 특히 1,400개의 주석 데이터 샘플만을 사용해도 기반 MLLM의 환각률을 34.8%나 감소시켰으며, 10,000개의 주석 데이터로 훈련된 동시대 모델인 LLaVA-RLHF를 상회하는 성능을 보였다. 최종 모델은 오픈소스 MLLMs 중에서 신뢰성 측면에서 최고 수준의 성능을 달성하였으며, 일반화 과도로 인한 환각을 방지하는 데 있어 GPT-4V보다 더 뛰어난 강건성을 보였다. 본 연구의 코드, 모델 및 데이터는 https://github.com/RLHF-V/RLHF-V 에서 오픈소스로 공개한다.

RLHF-V: 세부적인 수정형 인간 피드백을 통한 행동 일치를 통한 신뢰할 수 있는 MLLMs 지향 | 최신 연구 논문 | HyperAI초신경