InfinityInstruct-3M Lance Un Ensemble De Données De Réglage Fin De Dix Millions D'instructions
Date
Taille
URL de publication
Catégories
InfinityInstruct est un projet d'ensemble de données de réglage fin d'instructions open source à grande échelle et de haute qualité lancé par l'Académie d'intelligence artificielle de Pékin (BAAI). L'objectif de ce projet est de développer un ensemble de données contenant des millions d'instructions pour prendre en charge les capacités de traçage d'instructions pour les grands modèles de langage et ainsi améliorer les performances du modèle.
Cette version est l'ensemble de données d'instructions InfinityInstruct-3M, et la version finale devrait être publiée fin juin.
Les fonctionnalités d'InfinityInstruct incluent :
- Ensembles de données à grande échelleLe projet prévoit de publier des dizaines de millions de données de commande, et 3 millions de données de commande en chinois et en anglais ont été publiées au cours de la première phase.
- Un dépistage de haute qualité:L'Institut de recherche Zhiyuan effectue des analyses de terrain et un contrôle de qualité sur les données open source existantes pour garantir la grande valeur des données et augmente les données dans les domaines où elles font défaut.
- Contributions de la communauté Open Source:Au cours du processus de construction de l'ensemble de données, la communauté open source a fourni une grande quantité de données d'instructions, y compris des ensembles de données provenant de plusieurs sources, telles que OpenHermes-2.5, UltraInteract_sft, CodeBagel, etc.
- Évaluation des risques et génération de données:L'équipe du projet procède actuellement à une évaluation des risques et à la génération de données et prévoit de publier la version finale contenant 10 millions d'instructions d'ici la fin juin.
- Améliorations des performances:L'ensemble de données d'instructions open source actuel de 3 millions a démontré des capacités de données SFT (Supervised Fine-Tuning) qui surpassent les ensembles de données existants tels que Mistral et Openhermes.
- Perspectives d'avenir:On s'attend à ce qu'après que la quantité de données ait augmenté à des dizaines de millions, le modèle de dialogue formé sur la base de l'ensemble de données de réglage fin des instructions puisse atteindre le niveau de GPT-4.
Le développement et la publication de l’ensemble de données InfinityInstruct sont d’une grande importance pour promouvoir la recherche et l’application de modèles linguistiques à grande échelle. Il fournit des données d'instructions riches pour les grands modèles et contribue à améliorer la capacité du modèle à comprendre et à exécuter des instructions. Parallèlement, sa nature open source favorise également la collaboration et le partage des connaissances au sein de la communauté de l’IA.