RLAIF-V-Datensatz Umfangreicher Multimodaler Präferenzdatensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
Der RLAIF-V-Datensatz ist ein KI-generierter multimodaler Präferenzdatensatz, der eine Vielzahl von Aufgaben und Domänen abdeckt. Der Datensatz enthält über 44.757 hochwertige Paare zum Trainieren und Bewerten multimodaler großer Sprachmodelle (MLLMs). Der RLAIF-V-Datensatz verwendet einen neuartigen Ansatz zur Dekonfundierung von Modellreaktionen mithilfe eines großen Open-Source-Modells und bietet qualitativ hochwertige Feedback-Daten zur Reduzierung des Halluzinationsphänomens verschiedener MLLMs.
Darüber hinaus wird der RLAIF-V-Datensatz auch zum Trainieren des MiniCPM-Llama3-V 2.5-Modells verwendet, das das erste End-to-End-MLLM17 auf GPT-4V-Ebene darstellt. Das RLAIF-V-Projekt hat den Code, die Gewichte (7B, 12B) und die Daten zur Verwendung und weiteren Erforschung durch die Forschungsgemeinschaft als Open Source bereitgestellt.
Zu den Hauptmerkmalen des RLAIF-V-Datensatzes gehören:
- Hochwertige Feedback-Daten: Effektive Reduzierung von Halluzinationen durch verschiedene im Datensatz verwendete MLLMs.
- Open Source: Der Datensatz ist vollständig Open Source, sodass Forscher frei darauf zugreifen und ihn verwenden können.
- Multitasking und Multidomänen: Der Datensatz deckt ein breites Spektrum an Aufgaben und Domänen ab und bietet vielfältige Präferenzdaten.
Die Lizenz des RLAIF-V-Datensatzes lautet CC BY NC 4.0, was nur eine nichtkommerzielle Nutzung erlaubt. Mit diesem Datensatz trainierte Modelle sollten nicht außerhalb von Forschungszwecken verwendet werden.