HyperAI

MM-RLHF(인간 피드백을 활용한 다중 모드 강화 학습)는 고품질의 세분화된 다중 모드 데이터 세트입니다.MM-RLHF: 다중 모드 LLM 정렬의 다음 단계", 중국과학원 자동화 연구소(CASIA)에서 2025년 arXiv에 처음 게시했습니다. 이 데이터셋은 다중 모드 대규모 언어 모델(MLLM)의 정렬 연구를 촉진하고, 실제 적용 시 모델의 진실성, 안전성, 그리고 인간의 선호도와의 정렬 문제를 해결하는 것을 목표로 합니다.

이 데이터 세트에는 이미지 이해, 비디오 분석, 다중 모드 보안의 세 가지 영역을 포괄하는 120,000쌍의 세부적으로 분류되고 수동으로 주석이 달린 선호도 비교 데이터가 포함되어 있습니다. 데이터 양은 기존 리소스를 훨씬 넘어서서 10만 개가 넘는 다중 모드 작업 인스턴스를 포괄합니다. 각 데이터는 50명 이상의 주석자에 의해 신중하게 평가되고 해석되었으며, 이를 통해 데이터의 높은 품질과 세분성이 보장되었습니다.

MM-RLHF 다중 모드 선호도 정렬 데이터 세트