DPO-zh-en-emoji Emoji-Fragen-Antwort-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz ist online verfügbar.Klicken Sie hier, um zu springen.
Einführung in den Datensatz
Der DPO-zh-en-emoji-Datensatz ist ein Datensatz, der speziell für die Feinabstimmung großer Sprachmodelle entwickelt wurde und 2024 von shareAI eingeführt wurde, wobei „DPO“ für Direct Preference Optimization steht. Dieser Datensatz enthält eine große Anzahl von Frage-Antwort-Paaren. Zu jeder Frage gibt es zwei Antwortversionen, auf Chinesisch und auf Englisch. Die Antworten enthalten auch lustige und humorvolle Elemente, einschließlich der Verwendung von Emojis. Das Forschungsteam wählte sorgfältig einige Fragen aus Zhihu, logischem Denken und Retarded Forum als Abfragen aus und verwendete das llama3 70b-Anweisungsmodell, um für jede Abfrage eine chinesische und eine englische Version der Antwort zu erfassen und zu generieren. Ein solches Design trägt dazu bei, die Sprachstilpräferenzen des mehrsprachigen Chatmodells zu aktivieren und die Qualität der vom Modell generierten Inhalte sowie deren Übereinstimmung mit menschlichen Vorlieben zu verbessern.