MM-RLHF-Datensatz Zur Multimodalen Präferenzausrichtung
Datum
Größe
Veröffentlichungs-URL
Lizenz
Apache 2.0
Kategorien
MM-RLHF (Multimodal Reinforcement Learning from Human Feedback) ist ein hochwertiger, feinkörniger multimodaler Datensatz.MM-RLHF: Der nächste Schritt in der multimodalen LLM-Ausrichtung", erstmals veröffentlicht auf arXiv im Jahr 2025 vom Institute of Automation, Chinese Academy of Sciences (CASIA). Dieser Datensatz zielt darauf ab, die Ausrichtungsforschung multimodaler großer Sprachmodelle (MLLMs) voranzutreiben und die Fragen der Wahrhaftigkeit, Sicherheit und Ausrichtung des Modells an menschlichen Vorlieben in praktischen Anwendungen zu behandeln.
Der Datensatz enthält 120.000 Paare feinkörniger, manuell annotierter Präferenzvergleichsdaten, die drei Bereiche abdecken: Bildverständnis, Videoanalyse und multimodale Sicherheit. Die Datenmenge übersteigt die vorhandenen Ressourcen bei weitem und umfasst mehr als 100.000 multimodale Aufgabeninstanzen. Jedes Datenelement wurde von mehr als 50 Kommentatoren sorgfältig bewertet und interpretiert, um die hohe Qualität und Granularität der Daten sicherzustellen.
