Série De Tutoriels Deepmoney 2 : Grands Modèles Financiers Basés Sur La Formation Deepseek-llm
Introduction au tutoriel
Ce tutoriel a été produit et publié par le chef de projet Deepmoney, Xingye Yuanyuan, en 2024. Il vise à fournir des explications approfondies du marché et des analyses financières pour combler les lacunes des connaissances publiques dans le domaine financier actuel. La série de tutoriels Deepmoney contient trois modèles : Deepmoney-yi-34b, Deepmoney-67b-full et Deepmoney-miqu-70b.Ce tutoriel utilise Deepmoney-67b-full.
Ce modèle est formé sur la base de Deepseek-llm-67b-base open source par Deepseek-AI, et est divisé en deux étapes : la formation Lora (pt) et le réglage fin Lora (sft). Semblable à Deepmoney-yi-34b, ce modèle utilise également une formation complète des paramètres pour garantir le professionnalisme et la précision du modèle dans le domaine financier.
Les 2 autres modèles de cette série de tutoriels peuvent être trouvés ici :
* Tutoriel 1 de la série Financial Big Model : Deepmoney-34b-full
* Tutoriel 3 de la série Financial Big Model : Deepmoney-miqu-70b
1. Contexte de la recherche
La plupart des soi-disant modèles financiers actuels sont basés sur des connaissances publiques, mais dans le domaine financier actuel, ces connaissances publiques sont souvent largement insuffisantes pour expliquer le marché actuel. Si vous êtes intéressé, vous pouvez en apprendre davantage sur les différentes propositions de Keynes, Friedman et même sur la finance comportementale actuelle. De plus, le marché évolue à chaque instant et une grande quantité d’informations et de données massives sont disponibles en temps réel. Pourquoi ne pas utiliser un grand modèle pour créer un pipeline ? Dans le plan de recherche, ce modèle est le modèle de base de ce processus. Des modèles tels que le collecteur d’informations, le juge cible, l’analyste qualitatif, l’analyste quantitatif et l’extracteur de données font tous partie de ce processus. Mais il est sans aucun doute important que le modèle lui-même maîtrise un large éventail de méthodes qualitatives et quantitatives. C'est pourquoi ce modèle est né.
2. À propos des données
pt : De nombreuses connaissances publiques ont une validité douteuse, mais cela ne signifie pas qu’elles sont fausses. Le support théorique de nombreuses méthodes de recherche dans les rapports de recherche repose également sur ces connaissances. Ainsi, lors de la formation, les chercheurs ont sélectionné quelques manuels universitaires et quelques livres professionnels. La quantité n'est pas grande mais la qualité est bonne. En outre, les chercheurs ont sélectionné une grande quantité de données de rapports de recherche de décembre 2019 à 2023 - ces rapports ont été publiés par divers éditeurs, notamment des courtiers traditionnels et des instituts de recherche. La plupart d’entre eux sont payants et accessibles uniquement aux institutions.
Si vous avez lu des rapports de recherche, en particulier ceux de haute qualité, vous constaterez que les rapports de recherche sont tous des jugements subjectifs + une analyse quantitative, et que le support des données dans l'analyse quantitative est crucial pour l'ensemble de la chaîne logique. Pour extraire ces données, j’ai créé un pipeline qui résume le contexte du rapport de recherche dans le cadre de l’invite.
Finalement, les chercheurs ont combiné les données. Aucune donnée de connaissances générales n'est incluse car elle est conçue pour la cupidité. De plus, les connaissances contenues dans les rapports de recherche sectorielle sont suffisamment complètes.
sft : Tout d’abord, divisez un rapport de recherche en plusieurs parties selon les chapitres. En guise de contexte, laissez goliath-120b (vous pouvez continuer à tester davantage ici, et l’effet de claude3 est meilleur) poser des questions sur le contenu du rapport de recherche. Utilisez ensuite Nous-Capybara-34B pour répondre aux questions et au fragment de rapport de recherche correspondant. La raison de la séparation du questionneur et du répondeur est d'empêcher le modèle de « se poser et de répondre lui-même » et de ne pas répondre en fonction du rapport de recherche mais en incluant sa propre sortie. Cela permet d’extraire les connaissances et les méthodes des rapports de recherche. De plus, les chercheurs ont extrait les actifs sous-jacents (le cas échéant) des rapports de recherche à l'aide de gpt4 et les ont placés dans les instructions. Dans l'utilisation envisagée par la recherche, nous voulons donner l'objectif dans l'instruction et la source d'information que le crawler explore en temps réel, combinée à un agent qui pose automatiquement des questions, afin que le modèle puisse raisonner sur l'actualité.
3. À propos de la formation
Ce modèle est formé à l'aide du cadre de formation llama-factory. Pour une utilisation spécifique, veuillez vous référer à :hiyouga/LLaMA-Factory : Unifier et affiner efficacement plus de 100 LLM (github.com)
Ce modèle passe par deux étapes : pt et sft.
4. Évaluation du modèle
Prenons quelques exemples d’événements récents, simulons un processus d’analyse de titres axé sur les événements du monde réel et effectuons un test comparatif avec deepmoney et gpt4. Étant donné que l’impact des événements sur le marché est relativement invisible, il est difficile d’en évaluer les effets sans un processus de backtesting rigoureux. Et nos résultats doivent être analysés à l’aide de nombreuses méthodes quantitatives. Les chercheurs ont donc publié les résultats ici afin que chacun puisse faire une évaluation perceptive des résultats de la production. Les chercheurs disposent d'un système mondial d'exploration des actualités, qui contient de nombreuses nouvelles à tout moment. Le processus déduplique ces informations et émet des jugements subjectifs et objectifs, qui peuvent être résolus par le BERT traditionnel. Ensuite, pour le deepmoney, il y a 3 étapes pour traiter les nouvelles entrantes :
1. Quels secteurs industriels ou cibles d’investissement pourraient être touchés par les nouvelles ci-dessus ?
2. Veuillez concevoir une méthode quantitative pour étudier l’impact des nouvelles ci-dessus sur l’industrie ____. Et expliquez en conséquence quelles données doivent être utilisées spécifiquement.
3. Sur la base des données suivantes, veuillez _____concevoir une méthode quantitative spécifique pour analyser quantitativement l'impact des nouvelles ci-dessus sur l'industrie ____.
Parmi elles, la première question est celle du jugement subjectif, qui permet d'extraire la cible de l'impact de l'information. Cela repose davantage sur la capacité d’analyse subjective du modèle. Extrayez ensuite le nom de l'industrie de la première réponse (pour ceux qui connaissent le grand modèle, il est facile de concevoir un processus automatisé) et remplissez-le dans la deuxième question pour obtenir des données pour l'analyse quantitative. La raison pour laquelle nous nous interrogeons d’abord sur les méthodes quantitatives, puis sur les données, est la magie du COT. La réponse à la dernière question est ce dont nous avons réellement besoin. Le contexte de cette question fournit suffisamment d’informations pour nécessiter une méthode quantitative exacte et spécifique. En combinant le modèle écrit en code avec le modèle d'appel de fonction, cela est tout à fait possible si vous disposez d'une macro et d'une micro-base de données avec un dictionnaire de données complet. Les réponses ci-dessus sont les trois étapes de deepmoney et gpt4. Cette nouvelle s'est produite le 20240115 à 9h35, heure de Pékin.