Deepmoney シリーズ チュートリアル 1: Yi-34b トレーニングに基づく大規模な財務モデル
チュートリアルの紹介
このチュートリアルは、Deepmoney プロジェクトのリーダーである星野源氏によって作成され、2024 年に公開されました。実際の金融分野における一般の知識の不足を補うために、詳細な市場説明と財務分析を提供することを目的としています。 Deepmoney チュートリアル シリーズには、Deepmoney-yi-34b、Deepmoney-miqu-70b、Deepmoney-67b-full の 3 つのモデルが含まれています。このチュートリアルでは Deepmoney-34b-full を使用します。
Deepmoney-34b-full は Yi-34b-200k に基づいてトレーニングされており、pt (フル パラメーター トレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。トレーニング データには、主に従来の証券会社や専門の研究機関からの 2019 年から 2023 年 12 月までのデータをカバーする高品質の調査レポートが含まれています。
このチュートリアル シリーズの別の 2 つのモデルは、ここからジャンプできます。
* 金融大規模モデル シリーズ チュートリアル 2: Deepmoney-67b-full
* 金融大規模モデル シリーズ チュートリアル 3: Deepmoney-miqu-70b
1. 研究の背景
現在のいわゆる金融モデルのほとんどは、主に公知に基づいて訓練されていますが、実際の金融分野では、これらの公知は現在の市場の解釈可能性にとって非常に不十分であることがよくあります。興味があれば、ケインズ、フリードマン、さらには現在の行動ファイナンスのさまざまな命題について学ぶことができます。さらに、市場は刻一刻と変化しており、リアルタイムで大量のニュースと膨大なデータが存在するため、大規模なモデルを使用してパイプラインを作成してみてはいかがでしょうか。 私の計画では、このモデルはこのプロセスの基本モデルであり、情報収集者、ターゲット判定者、定性分析者、定量的分析者、およびその他のモデルはすべてこのプロセスのモデルです。しかし、多数の定性的および定量的手法を習得するには、モデル自体が間違いなく重要です。そこでこのモデルが誕生しました。
2. データについて:
pt: 世間の知識の多くには妥当性が疑わしいものもありますが、だからといってそれが間違っているというわけではありません。研究レポートにおける多くの研究手法の背後にある理論的裏付けも、この知識に依存しています。そこで、研修では大学の教科書と専門書を何冊か手に取りました。量は多くありませんが、質は良いです。さらに、2019 年から 2023 年 12 月までの多数の調査レポート データを選択しました。これらのレポートは、従来のブローカーや研究機関を含むさまざまな出版社によって発行されています。それらのほとんどは有料であり、機関のみが利用できます。
研究レポート、特に質の高いレポートを読んだことがある人なら、研究レポートはすべて主観的判断 + 定量分析であり、定量分析におけるデータのサポートは論理チェーン全体にとって非常に重要であることがわかります。このデータを抽出するために、プロンプトの一部として研究レポートのコンテキストを要約するプロセスを作成しました。
最後に、データをブレンドしてみました。欲張りなので一般的なデータは入っていません。さらに、業界調査レポートの知識は十分に包括的です。
sft: まず、研究レポートを章ごとにいくつかの部分に分割します。コンテキストとして、goliath-120b (ここでさらに評価を続けることができます。claude3 の実際のテスト効果はより優れています) に研究の内容について質問させます。報告。 次に、Nous-Capybara-34B を使用して質問と対応する研究レポートのスニペットに答えます。 質問者と回答者が分離されている理由は、モデルが「自ら質問し、回答する」ことを防ぎ、調査レポートに従って回答するのではなく、モデル自身の出力を引き込むことを防ぐためです。 これにより、研究レポート内の知識や手法を抽出することができます。 さらに、gpt4 を使用して調査レポートから基礎となる資産 (存在する場合) を抽出し、説明書に配置しました。 私が想定している用途としては、命令のターゲットとクローラーがリアルタイムに巡回するニュースソースを与え、自動的に質問するエージェントと組み合わせて、モデルが時事ニュースを推論できるようにしたいと考えています。
3: トレーニングについて:
このモデルは、llama-factory トレーニング フレームワークを使用してトレーニングされます。具体的な利用方法については、以下をご参照ください。hiyouga/LLaMA-Factory: 100 以上の LLM の効率的な微調整を統合する (github.com)
このモデルは、pt と sft の 2 つの段階を経ます。
4: モデルの評価:
最近のイベントをいくつかサンプリングし、現実世界でのイベント駆動型の証券分析プロセスをシミュレートし、deepmoney と gpt4 との比較テストを実行してみましょう。イベントが市場に及ぼす影響は比較的目に見えにくいため、厳格なバックテストプロセスなしにその影響を評価することは困難です。そして、私たちの成果は多くの定量的方法を使用して分析する必要があります。そこで、誰もが制作結果を知覚的に評価できるように、ここに結果を投稿します。 私はグローバル ニュース クローリング システムを使用しており、常に多くのニュースが存在します。そのプロセスでは、これらのニュースに対して重複排除と主観的および客観的な判断を行っていますが、これらは従来の BERT で解決できます。次に、ディープマネーの場合、入ってくるニュースを処理するために 3 つのステップが使用されます。 1. 上記のニュースはどの業界セクターまたは投資対象に影響を与える可能性がありますか? 2. 上記のニュースが___業界に与える影響を調査するための定量的な方法を設計してください。それに応じて、どのデータを使用する必要があるかを説明します。 3. 次のデータに基づいて、上記のニュースが ____ 業界に与える影響を定量的に分析するための一連の具体的な定量的手法を _____ 設計してください。
このうち、最初の課題は主観的な判断とニュースインパクトの対象の抽出である。これは、モデルの主観的な分析機能に大きく依存します。次に、定量分析のためのデータを取得する目的で、最初の回答から業界名を抽出し (大規模なモデルに慣れている人にとっては、自動化されたプロセスを設計するのが簡単です)、2 番目の質問に入力します。最初に定量的手法について質問し、次にデータについて質問する理由は、COT の魔法です。最後の質問に対する答えは、私たちが本当に必要としているものです。この質問の内容には十分な情報があり、正確かつ具体的な定量的方法で答える必要があります。コード記述モデルと関数呼び出しモデルを組み合わせると、完全なデータ ディクショナリを備えたマクロおよびマイクロ データベースがあれば、これは完全に実現可能です。以上がdeepmoneyとgpt4の3段階の答えです このニュースは20240115北京時間午前9時35分に起きたばかりのニュースです。