Ensemble De Données De Raisonnement Financier Finance-Instruct-500k
Date
il y a 4 jours
URL de publication
Licence
Apache 2.0
Catégories
Finance-Instruct-500k est un ensemble de données de raisonnement financier conçu pour former des modèles de langage de haut niveau pour les tâches financières, le raisonnement et le dialogue multi-tours.
L'ensemble de données contient plus de 500 000 données de haute qualité dans le domaine financier, couvrant les réponses aux questions financières, le raisonnement, l'analyse des sentiments, la classification des sujets, la reconnaissance d'entités nommées multilingues et l'IA conversationnelle.
Caractéristiques du jeu de données :
- Dialogue multi-tours : Contenu de dialogue riche, mettant l'accent sur la compréhension contextuelle et la capacité de raisonnement.
- Sources de données diverses : Contient des données provenant de plusieurs ensembles de données de haute qualité tels que Cinder et Sujet-Finance-Instruct-177k.
- Données au format RAG : dans la tâche de génération d'augmentation de récupération (RAG), des données externes sont ajoutées avant le champ utilisateur pour améliorer la compréhension du contexte.
- Déduplication et prétraitement : éliminez les entrées qui se chevauchent et les entrées irrégulières pour obtenir des données plus propres et de meilleure qualité.
- Balisage XBRL : contient des balises d'entités financières structurées de Financial-NER-NLP pour les tâches d'extraction avancées.