Ensemble De Données D'alignement Des Préférences Multimodales MM-RLHF
Date
Taille
URL de publication
Licence
Apache 2.0
MM-RLHF (Multimodal Reinforcement Learning from Human Feedback) est un ensemble de données multimodales de haute qualité et à granularité fine.MM-RLHF : la prochaine étape vers l'alignement multimodal des LLM", publié pour la première fois sur arXiv en 2025 par l'Institut d'automatisation de l'Académie chinoise des sciences (CASIA). Cet ensemble de données vise à promouvoir la recherche sur l'alignement des modèles multimodaux de langage à grande échelle (MLLM) et à aborder les questions de véracité, de sécurité et d'alignement du modèle avec les préférences humaines dans les applications pratiques.
L'ensemble de données contient 120 000 paires de données de comparaison de préférences à granularité fine et annotées manuellement, couvrant trois domaines : la compréhension des images, l'analyse vidéo et la sécurité multimodale. La quantité de données dépasse de loin les ressources existantes, couvrant plus de 100 000 instances de tâches multimodales. Chaque élément de données a été soigneusement noté et interprété par plus de 50 annotateurs, garantissant la haute qualité et la granularité des données.
