Finance-Instruct-500k 財務推論データセット
Finance-Instruct-500k は、金融タスク、推論、およびマルチターン対話用の高レベル言語モデルのトレーニング用に設計された金融推論データセットです。
このデータセットには、金融分野の 50 万件を超える高品質データが含まれており、金融に関する質問への回答、推論、感情分析、トピック分類、多言語固有表現認識、会話型 AI をカバーしています。
データセットの機能:
- マルチラウンドのダイアログ: 文脈の理解と推論能力を重視した豊富なダイアログコンテンツ。
- 多様なデータ ソース: Cinder や Sujet-Finance-Instruct-177k などの複数の高品質データセットのデータが含まれています。
- RAG 形式のデータ: 検索拡張生成 (RAG) タスクでは、コンテキストの理解を強化するために、外部データがユーザー フィールドの前に追加されます。
- 重複排除と前処理: 重複したエントリや不規則なエントリを排除して、よりクリーンで高品質なデータを取得します。
- XBRL タグ付け: 高度な抽出タスク用の Financial-NER-NLP からの構造化された財務エンティティ タグが含まれています。