Ensemble De Données De Réponses Aux Questions Emoji DPO-zh-en-emoji
Date
Taille
URL de publication
* Cet ensemble de données est disponible en ligne.Cliquez ici pour sauter.
Introduction à l'ensemble de données
L'ensemble de données DPO-zh-en-emoji est un ensemble de données spécialement conçu pour affiner les grands modèles linguistiques lancés par shareAI en 2024, où « DPO » signifie Direct Preference Optimization. Cet ensemble de données contient un grand nombre de paires questions-réponses. Chaque question a deux versions de la réponse, en chinois et en anglais. Les réponses intègrent également des éléments amusants et humoristiques, notamment l’utilisation d’émojis. L'équipe de recherche a soigneusement sélectionné certaines questions de Zhihu, de raisonnement logique et de Retarded Forum comme requêtes, et a utilisé le modèle d'instruction llama3 70b pour échantillonner et générer une version chinoise de la réponse et une version anglaise de la réponse pour chaque requête. Une telle conception permet d’activer les préférences de style linguistique du modèle de chat multilingue et d’améliorer la qualité du contenu généré par le modèle et sa conformité aux préférences humaines.