Deepmoney-Tutorial-Serie 1: Großes Finanzmodell Basierend Auf Yi-34b-Training
Einführung in das Tutorial
Dieses Tutorial wurde 2024 vom Deepmoney-Projektmanager Xingye Yuanyuan erstellt und veröffentlicht. Es zielt darauf ab, ausführliche Markterklärungen und Finanzanalysen bereitzustellen, um die Mängel des öffentlichen Wissens im tatsächlichen Finanzbereich auszugleichen. Die Deepmoney-Tutorialreihe enthält drei Modelle: Deepmoney-yi-34b, Deepmoney-miqu-70b und Deepmoney-67b-full.Dieses Tutorial verwendet Deepmoney-34b-full.
Deepmoney-34b-full wird basierend auf Yi-34b-200k trainiert und ist in zwei Phasen unterteilt: pt (vollständiges Parametertraining) und sft (Lora-Feintuning). Die Trainingsdaten umfassen hochwertige Forschungsberichte mit Daten aus den Jahren 2019 bis Dezember 2023, hauptsächlich von traditionellen Brokerhäusern und professionellen Forschungseinrichtungen.
Die anderen 2 Modelle dieser Tutorial-Reihe finden Sie hier:
* Tutorial 2 zur Finanzmodellreihe: Deepmoney-67b-full
* Tutorial 3 zur großen Finanzmodellreihe: Deepmoney-miqu-70b
1. Forschungshintergrund
Die meisten der heutigen sogenannten Finanzmodelle basieren auf allgemein bekanntem Wissen, doch im tatsächlichen Finanzbereich reicht dieses allgemein bekannte Wissen oft bei weitem nicht aus, um den aktuellen Markt zu erklären. Wenn Sie Interesse haben, können Sie sich über die verschiedenen Vorschläge von Keynes, Friedman und sogar die aktuelle Verhaltensökonomie informieren. Darüber hinaus verändert sich der Markt ständig und eine große Menge an Nachrichten und Daten liegt in Echtzeit vor. Warum nicht ein großes Modell verwenden, um eine Pipeline zu erstellen? In meinem Plan ist dieses Modell das Basismodell dieses Prozesses. In meinem Plan sind Modelle wie Informationssammler, Zielbeurteiler, qualitativer Analyst, quantitativer Analyst und Datenextraktor alle Teil dieses Prozesses. Für das Modell selbst ist es jedoch zweifellos wichtig, ein breites Spektrum qualitativer und quantitativer Methoden zu beherrschen. Aus diesem Grund wurde dieses Modell geboren.
2. Über Daten:
pt: Die Gültigkeit vieler öffentlich bekannter Erkenntnisse ist fragwürdig – das heißt aber nicht, dass sie falsch sind. Auch die theoretische Untermauerung vieler Forschungsmethoden in Forschungsberichten basiert auf diesem Wissen. Während meiner Ausbildung habe ich mir einige Universitätslehrbücher und einige Fachbücher zugelegt. Die Menge ist nicht viel, aber die Qualität ist gut. Darüber hinaus habe ich eine große Menge an Forschungsberichtsdaten von Dezember 2019 bis 2023 ausgewählt – diese Berichte wurden von einer Vielzahl von Verlagen veröffentlicht, darunter traditionelle Makler und Forschungsinstitute. Die meisten davon sind kostenpflichtig und nur für Institutionen zugänglich.
Wenn Sie Forschungsberichte gelesen haben, insbesondere qualitativ hochwertige, werden Sie feststellen, dass es sich bei Forschungsberichten um subjektive Urteile + quantitative Analysen handelt und dass die Datenunterstützung bei der quantitativen Analyse für die gesamte logische Kette von entscheidender Bedeutung ist. Um diese Daten zu extrahieren, habe ich eine Pipeline erstellt, die den Kontext des Forschungsberichts als Teil der Eingabeaufforderung zusammenfasst.
Zum Schluss habe ich die Daten gemischt. Es sind keine allgemeinen Wissensdaten enthalten, da diese auf Gier ausgelegt sind. Darüber hinaus ist das in den Branchenforschungsberichten enthaltene Wissen umfassend genug.
sft: Teilen Sie einen Forschungsbericht zunächst in mehrere Teile entsprechend den Kapiteln auf. Lassen Sie als Kontext Goliath-120b (Sie können hier weitere Tests durchführen, und die Wirkung von Claude3 ist besser) Fragen zum Inhalt des Forschungsberichts stellen. Verwenden Sie dann Nous-Capybara-34B, um die Fragen und das entsprechende Forschungsberichtsfragment zu beantworten. Der Grund für die Trennung von Fragesteller und Antwortendem besteht darin, zu verhindern, dass das Modell „selbst fragt und antwortet“ und nicht gemäß dem Forschungsbericht antwortet, sondern seine eigenen Ergebnisse einbezieht. Dadurch können Erkenntnisse und Methoden aus den Forschungsberichten extrahiert werden. Darüber hinaus habe ich gpt4 verwendet, um den zugrunde liegenden Vermögenswert (sofern vorhanden) aus dem Forschungsbericht zu extrahieren und ihn in die Bestellung aufzunehmen. In meinem vorgesehenen Anwendungsfall möchte ich in der Anweisung das Ziel und die Nachrichtenquelle angeben, die der Crawler in Echtzeit durchsucht, kombiniert mit einem Agenten, der automatisch Fragen stellt, sodass das Modell über aktuelle Ereignisse schlussfolgern kann.
3: Über das Training:
Dieses Modell wird mit dem Trainingsframework „Llama-Factory“ trainiert. Informationen zur spezifischen Verwendung finden Sie unter:hiyouga/LLaMA-Factory: Vereinheitlichen Sie die effiziente Feinabstimmung von über 100 LLMs (github.com)
Dieses Modell durchläuft zwei Phasen: pt und sft.
4: Modellbewertung:
Lassen Sie uns einige aktuelle Ereignisse untersuchen, einen realen ereignisgesteuerten Wertpapieranalyseprozess simulieren und einen Vergleichstest mit Deepmoney und GPT4 durchführen. Da die Auswirkungen von Ereignissen auf den Markt relativ unsichtbar sind, ist es schwierig, die Effekte ohne einen rigorosen Backtesting-Prozess zu bewerten. Und unsere Ergebnisse müssen mithilfe zahlreicher quantitativer Methoden analysiert werden. Deshalb habe ich die Ergebnisse hier veröffentlicht, damit jeder eine intuitive Bewertung der Produktionsergebnisse vornehmen kann. Ich habe ein globales News-Crawling-System. Es gibt ständig viele Neuigkeiten. In meinem Prozess beseitige ich Duplikate und fälle subjektive und objektive Urteile über diese Nachrichten. Diese können durch herkömmliches BERT gelöst werden. Für deepmoney werden hier drei Schritte zur Verarbeitung der eingehenden Nachrichten verwendet: 1. Welche Industriezweige oder Anlageziele könnten von den oben genannten Nachrichten betroffen sein? 2. Bitte entwerfen Sie eine quantitative Methode, um die Auswirkungen der oben genannten Nachrichten auf die ____-Branche zu untersuchen. Und erläutern Sie entsprechend, welche Daten konkret verwendet werden müssen. 3. Bitte entwerfen Sie auf der Grundlage der folgenden Daten eine spezifische quantitative Methode, um die Auswirkungen der oben genannten Nachrichten auf die ____-Branche quantitativ zu analysieren.
Die erste Frage betrifft die subjektive Beurteilung, also die Ermittlung des Ziels der Nachrichtenwirkung. Dies hängt eher von der subjektiven Analysefähigkeit des Modells ab. Extrahieren Sie dann den Branchennamen aus der ersten Antwort (für diejenigen, die mit dem großen Modell vertraut sind, ist es einfach, einen automatisierten Prozess zu entwerfen) und füllen Sie ihn in die zweite Frage aus, um Daten für die quantitative Analyse zu erhalten. Der Grund, warum wir zuerst nach quantitativen Methoden und dann nach Daten fragen, ist die Magie von COT. Die Antwort auf die letzte Frage ist, was wir wirklich brauchen. Der Kontext dieser Frage liefert genügend Informationen, um eine genaue und spezifische quantitative Methode zu erfordern. Durch die Kombination des Code-geschriebenen Modells mit dem Funktionsaufrufmodell ist dies durchaus möglich, wenn Sie über eine Makro- und Mikrodatenbank mit einem vollständigen Datenwörterbuch verfügen. Oben sind die dreistufigen Antworten von deepmoney und gpt4. Diese Nachricht geschah gerade am 15.01.2024 um 9:35 Uhr Pekinger Zeit.