Finance-Instruct-500k 金融推理数据集
Finance-Instruct-500k 是一个金融推理数据集,旨在训练用于金融任务、推理和多轮对话的高级语言模型。
该数据集包含超过 50 万条金融领域的高质量数据,涵盖金融问答、推理、情感分析、主题分类、多语言命名实体识别和对话式 AI 。
数据集特点:
- 多轮对话:丰富的对话内容,强调语境理解与推理能力。
- 多样化数据源:包含来自 Cinder 、 Sujet-Finance-Instruct-177k 等多个高质量数据集的数据。
- RAG 格式数据:检索增强生成(RAG)任务中,用户字段前附加了外部数据,以增强语境理解。
- 去重和预处理:消除重叠和不规则条目,以获得更干净、更高质量的数据。
- XBRL 标签化:包含来自 Financial-NER-NLP 的结构化金融实体标签,用于高级提取任务。