Finance-Instruct-500k 재무 추론 데이터 세트
Finance-Instruct-500k는 금융 업무, 추론 및 다중 턴 대화를 위한 고수준 언어 모델을 훈련하도록 설계된 금융 추론 데이터 세트입니다.
이 데이터 세트에는 금융 분야의 50만 개 이상의 고품질 데이터가 포함되어 있으며, 금융 관련 질문에 대한 답변, 추론, 감정 분석, 주제 분류, 다국어 명명 엔터티 인식 및 대화형 AI를 포함합니다.
데이터 세트 기능:
- 여러 라운드로 구성된 대화: 풍부한 대화 내용으로 맥락적 이해와 추론 능력을 강조합니다.
- 다양한 데이터 소스: Cinder, Sujet-Finance-Instruct-177k 등 여러 고품질 데이터 세트의 데이터를 포함합니다.
- RAG 형식 데이터: 검색 증강 생성(RAG) 작업에서는 컨텍스트 이해를 높이기 위해 사용자 필드 앞에 외부 데이터가 추가됩니다.
- 중복 제거 및 전처리: 중복되거나 불규칙한 항목을 제거하여 더 깔끔하고 더 높은 품질의 데이터를 얻습니다.
- XBRL 태깅: 고급 추출 작업을 위해 Financial-NER-NLP의 구조화된 재무 엔터티 태그가 포함되어 있습니다.