HyperAI超神経

Deepmoney シリーズ チュートリアル 2: Deepseek-llm に基づいてトレーニングされた大規模な金融モデル

チュートリアルの紹介

このチュートリアルは、Deepmoney プロジェクトのリーダーである星野源氏によって作成され、2024 年に公開されました。実際の金融分野における一般の知識の不足を補うために、詳細な市場説明と財務分析を提供することを目的としています。 Deepmoney チュートリアル シリーズには、Deepmoney-yi-34b、Deepmoney-67b-full、Deepmoney-miqu-70b の 3 つのモデルが含まれています。このチュートリアルでは Deepmoney-67b-full を使用します。

このモデルは、Deepseek-AI のオープンソース Deepseek-llm-67b-base に基づいてトレーニングされており、Lora トレーニング (pt) と Lora 微調整 (sft) の 2 つの段階に分かれています。 Deepmoney-yi-34b と同様に、このモデルも完全なパラメーター トレーニングを使用して、金融分野におけるモデルの専門性と精度を保証します。

このチュートリアル シリーズの別の 2 つのモデルは、ここからジャンプできます。

* 金融大規模モデル シリーズ チュートリアル 1: Deepmoney-34b-full

* 金融大規模モデル シリーズ チュートリアル 3: Deepmoney-miqu-70b

1. 研究の背景

現在のいわゆる金融モデルのほとんどは、主に公知に基づいて訓練されていますが、実際の金融分野では、これらの公知は現在の市場の解釈可能性にとって非常に不十分であることがよくあります。興味があれば、ケインズ、フリードマン、さらには現在の行動ファイナンスのさまざまな命題について学ぶことができます。さらに、市場は刻一刻と変化しており、リアルタイムで大量のニュースと膨大なデータが存在するため、大規模なモデルを使用してパイプラインを作成してみてはいかがでしょうか。 研究計画では、このモデルはこのプロセスの基本モデルであり、情報収集者、ターゲット判定者、定性分析者、定量的分析者、データ抽出者などのモデルはすべてこのプロセスの一部です。しかし、多数の定性的および定量的手法を習得するには、モデル自体が間違いなく重要です。そこでこのモデルが誕生しました。

2. データについて

pt: 世間の知識の多くには妥当性が疑わしいものもありますが、だからといってそれが間違っているというわけではありません。研究レポートにおける多くの研究手法の背後にある理論的裏付けも、この知識に依存しています。そこで、研修中に研究者たちは大学の教科書と専門書をいくつか選びました。量は多くありませんが、質は良いです。さらに、研究者らは、2019年から2023年12月までの多数の調査レポートデータを選択しました。これらのレポートは、従来のブローカーや研究機関を含むさまざまな出版社によって発行されました。それらのほとんどは有料であり、機関のみが利用できます。

研究レポート、特に質の高いレポートを読んだことがある人なら、研究レポートはすべて主観的判断 + 定量分析であり、定量分析におけるデータのサポートが論理チェーン全体にとって重要であることがわかります。このデータを抽出するために、プロンプトの一部として研究レポートのコンテキストを要約するプロセスを作成しました。

最後に、研究者たちはデータを混合しました。欲張りなので一般的なデータは入っていません。さらに、業界調査レポートの知識は十分に包括的です。

sft: まず、研究レポートを章ごとにいくつかの部分に分割します。コンテキストとして、goliath-120b (ここでさらに評価を続けることができます。claude3 の実際のテスト効果はより優れています) に研究の内容について質問させます。報告。 次に、Nous-Capybara-34B を使用して質問と対応する研究レポートのスニペットに答えます。 質問者と回答者が分離されている理由は、モデルが「自ら質問し、回答する」ことを防ぎ、調査レポートに従って回答するのではなく、モデル自身の出力を引き込むことを防ぐためです。 これにより、研究レポート内の知識や手法を抽出することができます。 さらに、研究者らは gpt4 を使用して、基礎となる資産 (存在する場合) を研究レポートから抽出し、説明書に配置しました。 研究アイデアの使用では、モデルが現在のニュースについて推論できるように、クローラーによってリアルタイムでクロールされるニュース ソースと、自動的に質問するエージェントとを組み合わせて、指示で目標を与えたいと考えています。

3. 研修について

このモデルは、llama-factory トレーニング フレームワークを使用してトレーニングされます。具体的な利用方法については、以下をご参照ください。hiyouga/LLaMA-Factory: 100 以上の LLM の効率的な微調整を統合する (github.com)

このモデルは、pt と sft の 2 つの段階を経ます。

4. モデルの評価

最近のイベントをいくつかサンプリングし、現実世界でのイベント駆動型の証券分析プロセスをシミュレートし、deepmoney と gpt4 との比較テストを実行してみましょう。イベントが市場に及ぼす影響は比較的目に見えにくいため、厳格なバックテストプロセスなしにその影響を評価することは困難です。そして、私たちの成果は多くの定量的方法を使用して分析する必要があります。したがって、誰もが生産結果を知覚的に評価できるように、研究者はここに結果を投稿しました。研究者はグローバル ニュース クローリング システムを備えており、その過程で、大量のニュースが重複排除され、主観的および客観的な判断が行われます。これらは従来の BERT によって解決できます。次に、ディープマネーの場合、受信したニュースを処理するために 3 つのステップが使用されます。

1. 上記のニュースはどの業界セクターまたは投資対象に影響を与える可能性がありますか?

2. 上記のニュースが___業界に与える影響を調査するための定量的な方法を設計してください。それに応じて、どのデータを使用する必要があるかを説明します。

3. 次のデータに基づいて、上記のニュースが ____ 業界に与える影響を定量的に分析するための一連の具体的な定量的手法を _____ 設計してください。

このうち、最初の課題は主観的な判断とニュースインパクトの対象の抽出である。これは、モデルの主観的な分析機能に大きく依存します。次に、定量分析のためのデータを取得する目的で、最初の回答から業界名を抽出し (大規模なモデルに慣れている人にとっては、自動化されたプロセスを設計するのが簡単です)、2 番目の質問に入力します。最初に定量的手法について質問し、次にデータについて質問する理由は、COT の魔法です。最後の質問に対する答えは、私たちが本当に必要としているものです。この質問の内容には十分な情報があり、正確かつ具体的な定量的方法で答える必要があります。コード記述モデルと関数呼び出しモデルを組み合わせると、完全なデータ ディクショナリを備えたマクロおよびマイクロ データベースがあれば、これは完全に実現可能です。以上がdeepmoneyとgpt4の3段階の答えです このニュースは20240115北京時間午前9時35分に起きたばかりのニュースです。