Deepmoney-Tutorial-Serie 2: Finanzielles Großmodell Basierend Auf Deepseek-llm-Training
Einführung in das Tutorial
Dieses Tutorial wurde 2024 vom Deepmoney-Projektmanager Xingye Yuanyuan erstellt und veröffentlicht. Es zielt darauf ab, ausführliche Markterklärungen und Finanzanalysen bereitzustellen, um die Mängel des öffentlichen Wissens im tatsächlichen Finanzbereich auszugleichen. Die Deepmoney-Tutorialreihe enthält drei Modelle: Deepmoney-yi-34b, Deepmoney-67b-full und Deepmoney-miqu-70b.Dieses Tutorial verwendet Deepmoney-67b-full.
Dieses Modell wird basierend auf Deepseek-llm-67b-base, Open Source von Deepseek-AI, trainiert und ist in zwei Phasen unterteilt: Lora-Training (pt) und Lora-Feintuning (sft). Ähnlich wie Deepmoney-yi-34b verwendet auch dieses Modell ein vollständiges Parametertraining, um die Professionalität und Genauigkeit des Modells im Finanzbereich sicherzustellen.
Die anderen 2 Modelle dieser Tutorial-Reihe finden Sie hier:
* Tutorial 1 zur großen Finanzmodellreihe: Deepmoney-34b-full
* Tutorial 3 zur großen Finanzmodellreihe: Deepmoney-miqu-70b
1. Forschungshintergrund
Die meisten der heutigen sogenannten Finanzmodelle basieren auf allgemein bekanntem Wissen, doch im tatsächlichen Finanzbereich reicht dieses allgemein bekannte Wissen oft bei weitem nicht aus, um den aktuellen Markt zu erklären. Wenn Sie Interesse haben, können Sie sich über die verschiedenen Vorschläge von Keynes, Friedman und sogar die aktuelle Verhaltensökonomie informieren. Darüber hinaus verändert sich der Markt ständig und eine große Menge an Nachrichten und Daten liegt in Echtzeit vor. Warum nicht ein großes Modell verwenden, um eine Pipeline zu erstellen? Im Forschungsplan ist dieses Modell das Basismodell dieses Prozesses. Modelle wie Informationssammler, Zielbeurteiler, qualitativer Analyst, quantitativer Analyst und Datenextraktor sind alle Teil dieses Prozesses. Für das Modell selbst ist es jedoch zweifellos wichtig, ein breites Spektrum qualitativer und quantitativer Methoden zu beherrschen. Aus diesem Grund wurde dieses Modell geboren.
2. Über Daten
pt: Die Gültigkeit vieler öffentlich bekannter Erkenntnisse ist fragwürdig – das heißt aber nicht, dass sie falsch sind. Auch die theoretische Untermauerung vieler Forschungsmethoden in Forschungsberichten basiert auf diesem Wissen. Daher wählten die Forscher für die Schulung einige Universitätslehrbücher und einige Fachbücher aus. Die Menge ist nicht viel, aber die Qualität ist gut. Darüber hinaus wählten die Forscher eine große Menge an Forschungsberichtsdaten aus dem Zeitraum von Dezember 2019 bis 2023 aus – diese Berichte wurden von einer Vielzahl von Verlagen veröffentlicht, darunter auch traditionellen Maklern und Forschungseinrichtungen. Die meisten davon sind kostenpflichtig und nur für Institutionen zugänglich.
Wenn Sie Forschungsberichte gelesen haben, insbesondere qualitativ hochwertige, werden Sie feststellen, dass es sich bei allen Forschungsberichten um subjektive Urteile + quantitative Analysen handelt und dass die Datenunterstützung bei der quantitativen Analyse für die gesamte logische Kette von entscheidender Bedeutung ist. Um diese Daten zu extrahieren, habe ich eine Pipeline erstellt, die den Kontext des Forschungsberichts als Teil der Eingabeaufforderung zusammenfasst.
Abschließend führten die Forscher die Daten zusammen. Es sind keine allgemeinen Wissensdaten enthalten, da diese auf Gier ausgelegt sind. Darüber hinaus ist das in den Branchenforschungsberichten enthaltene Wissen umfassend genug.
sft: Teilen Sie einen Forschungsbericht zunächst in mehrere Teile entsprechend den Kapiteln auf. Lassen Sie als Kontext Goliath-120b (Sie können hier weitere Tests durchführen, und die Wirkung von Claude3 ist besser) Fragen zum Inhalt des Forschungsberichts stellen. Verwenden Sie dann Nous-Capybara-34B, um die Fragen und das entsprechende Forschungsberichtsfragment zu beantworten. Der Grund für die Trennung von Fragesteller und Antwortender besteht darin, zu verhindern, dass das Modell „selbst fragt und antwortet“ und nicht gemäß dem Forschungsbericht antwortet, sondern seine eigenen Ergebnisse einbezieht. Dadurch können Erkenntnisse und Methoden aus den Forschungsberichten extrahiert werden. Darüber hinaus extrahierten die Forscher die zugrunde liegenden Vermögenswerte (sofern vorhanden) mithilfe von gpt4 aus den Forschungsberichten und fügten sie in die Anweisungen ein. In der von der Forschung vorgesehenen Verwendung möchten wir das Ziel in der Anweisung und der Nachrichtenquelle angeben, dass der Crawler in Echtzeit crawlt, kombiniert mit einem Agenten, der automatisch Fragen stellt, sodass das Modell über aktuelle Angelegenheiten schlussfolgern kann.
3. Über das Training
Dieses Modell wird mit dem Trainingsframework „Llama-Factory“ trainiert. Informationen zur spezifischen Verwendung finden Sie unter:hiyouga/LLaMA-Factory: Vereinheitlichen Sie die effiziente Feinabstimmung von über 100 LLMs (github.com)
Dieses Modell durchläuft zwei Phasen: pt und sft.
4. Modellbewertung
Lassen Sie uns einige aktuelle Ereignisse untersuchen, einen realen ereignisgesteuerten Wertpapieranalyseprozess simulieren und einen Vergleichstest mit Deepmoney und GPT4 durchführen. Da die Auswirkungen von Ereignissen auf den Markt relativ unsichtbar sind, ist es schwierig, die Effekte ohne einen rigorosen Backtesting-Prozess zu bewerten. Und unsere Ergebnisse müssen mithilfe zahlreicher quantitativer Methoden analysiert werden. Daher haben die Forscher die Ergebnisse hier veröffentlicht, damit jeder eine wahrnehmungsbezogene Bewertung der Produktionsergebnisse vornehmen kann. Die Forscher verfügen über ein globales News-Crawling-System, das jederzeit über zahlreiche Neuigkeiten verfügt. Der Prozess dedupliziert diese Nachrichten und trifft subjektive und objektive Urteile, die durch herkömmliches BERT gelöst werden können. Dann gibt es für Deepmoney drei Schritte zur Verarbeitung der eingehenden Nachrichten:
1. Welche Industriezweige oder Anlageziele könnten von den oben genannten Neuigkeiten betroffen sein?
2. Bitte entwerfen Sie eine quantitative Methode, um die Auswirkungen der oben genannten Nachrichten auf die ____-Branche zu untersuchen. Und erläutern Sie entsprechend, welche Daten konkret verwendet werden müssen.
3. Entwerfen Sie bitte auf der Grundlage der folgenden Daten eine spezifische quantitative Methode, um die Auswirkungen der oben genannten Nachrichten auf die ____-Branche quantitativ zu analysieren.
Die erste Frage betrifft die subjektive Beurteilung, also die Ermittlung des Ziels der Nachrichtenwirkung. Dies hängt eher von der subjektiven Analysefähigkeit des Modells ab. Extrahieren Sie dann den Branchennamen aus der ersten Antwort (für diejenigen, die mit dem großen Modell vertraut sind, ist es einfach, einen automatisierten Prozess zu entwerfen) und füllen Sie ihn in die zweite Frage aus, um Daten für die quantitative Analyse zu erhalten. Der Grund, warum wir zuerst nach quantitativen Methoden und dann nach Daten fragen, ist die Magie von COT. Die Antwort auf die letzte Frage ist, was wir wirklich brauchen. Der Kontext dieser Frage liefert genügend Informationen, um eine genaue und spezifische quantitative Methode zu erfordern. Durch die Kombination des Code-geschriebenen Modells mit dem Funktionsaufrufmodell ist dies durchaus möglich, wenn Sie über eine Makro- und Mikrodatenbank mit einem vollständigen Datenwörterbuch verfügen. Oben sind die dreistufigen Antworten von deepmoney und gpt4. Diese Nachricht geschah gerade am 15.01.2024 um 9:35 Uhr Pekinger Zeit.