HyperAI

Série De Tutoriels Deepmoney 1 : Grand Modèle Financier Basé Sur La Formation Yi-34b

Introduction au tutoriel

Ce tutoriel a été produit et publié par le chef de projet Deepmoney, Xingye Yuanyuan, en 2024. Il vise à fournir des explications approfondies du marché et des analyses financières pour combler les lacunes des connaissances publiques dans le domaine financier actuel. La série de tutoriels Deepmoney contient trois modèles : Deepmoney-yi-34b, Deepmoney-miqu-70b et Deepmoney-67b-full.Ce tutoriel utilise Deepmoney-34b-full.

Deepmoney-34b-full est formé sur la base de Yi-34b-200k et est divisé en deux étapes : pt (formation complète des paramètres) et sft (réglage fin de Lora). Les données de formation comprennent des rapports de recherche de haute qualité couvrant les données de 2019 à décembre 2023, provenant principalement de courtiers traditionnels et d'institutions de recherche professionnelles.

Les 2 autres modèles de cette série de tutoriels peuvent être trouvés ici :

* Tutoriel 2 sur la série de modèles financiers : Deepmoney-67b-full

* Tutoriel 3 de la série Financial Big Model : Deepmoney-miqu-70b

1. Contexte de la recherche

La plupart des soi-disant modèles financiers actuels sont basés sur des connaissances publiques, mais dans le domaine financier actuel, ces connaissances publiques sont souvent largement insuffisantes pour expliquer le marché actuel. Si vous êtes intéressé, vous pouvez en apprendre davantage sur les différentes propositions de Keynes, Friedman et même sur la finance comportementale actuelle. De plus, le marché évolue à chaque instant et une grande quantité d’informations et de données massives sont disponibles en temps réel. Pourquoi ne pas utiliser un grand modèle pour créer un pipeline ? Dans mon plan, ce modèle est le modèle de base de ce processus. Dans mon plan, des modèles tels que le collecteur d’informations, le juge cible, l’analyste qualitatif, l’analyste quantitatif et l’extracteur de données font tous partie de ce processus. Mais il est sans aucun doute important que le modèle lui-même maîtrise un large éventail de méthodes qualitatives et quantitatives. C'est pourquoi ce modèle est né.

2. À propos des données :

pt : De nombreuses connaissances publiques ont une validité douteuse, mais cela ne signifie pas qu’elles sont fausses. Le support théorique de nombreuses méthodes de recherche dans les rapports de recherche repose également sur ces connaissances. Ainsi, au cours de ma formation, j'ai acquis quelques manuels universitaires et quelques livres professionnels. La quantité n'est pas grande mais la qualité est bonne. De plus, j’ai sélectionné une grande quantité de données de rapports de recherche de décembre 2019 à 2023 – ces rapports ont été publiés par divers éditeurs, y compris des courtiers traditionnels et des instituts de recherche. La plupart d’entre eux sont payants et accessibles uniquement aux institutions.

Si vous avez lu des rapports de recherche, en particulier ceux de haute qualité, vous constaterez que les rapports de recherche sont un jugement subjectif + une analyse quantitative, et que le support des données dans l'analyse quantitative est crucial pour l'ensemble de la chaîne logique. Pour extraire ces données, j’ai créé un pipeline qui résume le contexte du rapport de recherche dans le cadre de l’invite.

Finalement, j'ai mélangé les données. Aucune donnée de connaissances générales n'est incluse car elle est conçue pour la cupidité. De plus, les connaissances contenues dans les rapports de recherche sectorielle sont suffisamment complètes.

sft : Tout d’abord, divisez un rapport de recherche en plusieurs parties selon les chapitres. En guise de contexte, laissez goliath-120b (vous pouvez continuer à tester davantage ici, et l’effet de claude3 est meilleur) poser des questions sur le contenu du rapport de recherche. Utilisez ensuite Nous-Capybara-34B pour répondre aux questions et au fragment de rapport de recherche correspondant. La raison de la séparation du questionneur et du répondeur est d'empêcher le modèle de « se poser et de répondre lui-même » et de ne pas répondre en fonction du rapport de recherche mais en incluant sa propre sortie. Cela permet d’extraire les connaissances et les méthodes des rapports de recherche. De plus, j'ai utilisé gpt4 pour extraire l'actif sous-jacent (le cas échéant) du rapport de recherche et l'ai placé dans la commande. Dans mon cas d'utilisation envisagé, je souhaite donner l'objectif dans l'instruction et la source d'actualités que le robot explore en temps réel, combinés à un agent qui pose automatiquement des questions, afin que le modèle puisse raisonner sur les événements actuels.

3 : À propos de la formation :

Ce modèle est formé à l'aide du cadre de formation llama-factory. Pour une utilisation spécifique, veuillez vous référer à :hiyouga/LLaMA-Factory : Unifier et affiner efficacement plus de 100 LLM (github.com)

Ce modèle passe par deux étapes : pt et sft.

4 : Évaluation du modèle :

Prenons quelques exemples d’événements récents, simulons un processus d’analyse de titres axé sur les événements du monde réel et effectuons un test comparatif avec deepmoney et gpt4. Étant donné que l’impact des événements sur le marché est relativement invisible, il est difficile d’en évaluer les effets sans un processus de backtesting rigoureux. Et nos résultats doivent être analysés à l’aide de nombreuses méthodes quantitatives. J'ai donc posté les résultats ici afin que chacun puisse faire une évaluation intuitive des résultats de production. J'ai un système d'exploration des actualités mondiales. Il y a beaucoup de nouvelles à tout moment. Dans mon processus, je déduplique et porte des jugements subjectifs et objectifs sur ces nouvelles. Ces problèmes peuvent être résolus par le BERT traditionnel. Ensuite, pour le deepmoney, trois étapes sont utilisées ici pour traiter les nouvelles entrantes : 1. Quels secteurs industriels ou cibles d’investissement peuvent être affectés par les nouvelles ci-dessus ? 2. Veuillez concevoir une méthode quantitative pour étudier l’impact des nouvelles ci-dessus sur l’industrie ____. Et expliquez en conséquence quelles données doivent être utilisées spécifiquement. 3. Sur la base des données suivantes, veuillez _____ concevoir une méthode quantitative spécifique pour analyser quantitativement l'impact des nouvelles ci-dessus sur l'industrie ____.

Parmi elles, la première question est celle du jugement subjectif, qui permet d'extraire la cible de l'impact de l'information. Cela repose davantage sur la capacité d’analyse subjective du modèle. Extrayez ensuite le nom de l'industrie de la première réponse (pour ceux qui connaissent le grand modèle, il est facile de concevoir un processus automatisé) et remplissez-le dans la deuxième question pour obtenir des données pour l'analyse quantitative. La raison pour laquelle nous nous interrogeons d’abord sur les méthodes quantitatives, puis sur les données, est la magie du COT. La réponse à la dernière question est ce dont nous avons réellement besoin. Le contexte de cette question fournit suffisamment d’informations pour nécessiter une méthode quantitative exacte et spécifique. En combinant le modèle écrit en code avec le modèle d'appel de fonction, cela est tout à fait possible si vous disposez d'une macro et d'une micro-base de données avec un dictionnaire de données complet. Les réponses ci-dessus sont les trois étapes de deepmoney et gpt4. Cette nouvelle s'est produite le 20240115 à 9h35, heure de Pékin.