11일 전

시각적 피니터닝을 위한 고품질 데이터의 게임화된 커뮤니티 기반 수집

Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan
시각적 피니터닝을 위한 고품질 데이터의 게임화된 커뮤니티 기반 수집
초록

이 논문은 대규모 다중모달 모델의 시각적 지시 조정을 위한 고품질 데이터를 대량으로 수집하기 위해 공동 창출하는 방식으로 개발된 '게임화된 적대적 프롬프팅(Gamified Adversarial Prompting, GAP)' 프레임워크를 소개한다. GAP은 데이터 수집 과정을 흥미로운 게임으로 전환하여, 사용자가 모델의 지식적 약점을 노출시키는 세밀하고 도전적인 질문-답변 쌍을 제공하도록 유도한다. 본 연구의 주요 기여는 다음과 같다. (1) 모델의 지식적 약점을 직접적으로 해결할 수 있는 질문-답변 쌍을 인간으로부터 수집하는 방법론, (2) 성공적으로 고품질 제출물을 유도하기 위해 플레이어를 평가하고 보상하는 평가 및 보상 메커니즘, 그리고 (3) 단 몇 주 만에 5만 명 이상의 참여자를 확보할 수 있는 확장 가능한 게임 기반 플랫폼 개발이다. GAP의 구현 결과, 소형 다중모달 모델인 MiniCPM-Llama3-V-2.5-8B의 정확도가 크게 향상되었으며, 우리 데이터셋에서 GPT 점수는 0.147에서 0.477로 상승하여, 훨씬 더 큰 규모의 GPT-4V가 설정한 기준에 근접하는 성과를 달성하였다. 또한, MiniCPM-Llama3-V-2.5-8B를 기반으로 생성된 데이터가 다른 벤치마크에서도 동일한 모델의 성능을 향상시키며, 모델 간 전이 효과를 보임을 입증하였다. 구체적으로, 동일한 데이터는 QWEN2-VL-2B 및 QWEN2-VL-7B 모델의 여러 벤치마크에서 성능 향상에 기여함을 확인하였다.

시각적 피니터닝을 위한 고품질 데이터의 게임화된 커뮤니티 기반 수집 | 최신 연구 논문 | HyperAI초신경