BloombergGPT: 金融向けの大規模言語モデル

自然言語処理(NLP)が金融テクノロジーの分野で使用される範囲は広く、複雑です。その応用は感情分析、固有表現認識から質問応答まで多岐にわたります。大規模言語モデル(LLM)は様々なタスクにおいて効果的であることが示されていますが、文献では金融分野に特化したLLMの報告は見られていません。本研究では、500億パラメータを持つ言語モデル「BloombergGPT」を発表します。これは、ブルームバーグの豊富なデータソースに基づいて3630億トークンのデータセットを構築し、さらに一般用途のデータセットから3450億トークンを追加して作成されたもので、おそらく最大のドメイン特化型データセットとなっています。私たちはBloombergGPTを標準的なLLMベンチマーク、公開されている金融ベンチマーク、そして私たちの目的に最も適した一連の内部ベンチマークで検証しました。混合データセットでの学習により、BloombergGPTは既存のモデルよりも金融タスクにおいて大幅に優れた性能を示す一方で、一般的なLLMベンチマークでの性能も損なわれることなく向上しています。また、モデル選択の理由、学習プロセス、評価方法について説明します。さらに、「Training Chronicles」(付録C)としてBloombergGPTの学習経験を詳細に公開します。この翻訳では以下の点に注意しました:1. 専門用語や技術概念(例:NLP, LLM, 感情分析, 固有表現認識, ベンチマーク)を正確に翻訳し、日本語でも一般的に使用される表現を使用しました。2. 日本語の表現習慣に合わせて文章構造や単語選択を行いました。3. 正式かつ客観的な書き方を使用し、口語的な表現を避けました。4. 原文との内容の一貫性を保ちつつ、日本語読者にとって自然な文章構造になるよう最適化しました。