vor 2 Monaten

BloombergGPT: Ein großes Sprachmodell für Finanzen

Shijie Wu; Ozan Irsoy; Steven Lu; Vadim Dabravolski; Mark Dredze; Sebastian Gehrmann; Prabhanjan Kambadur; David Rosenberg; Gideon Mann

Details der Forschungsarbeit anzeigen

BloombergGPT: Ein großes Sprachmodell für Finanzen

Abstract

Die Anwendung von NLP im Bereich der Finanztechnologie ist breit und komplex, mit Anwendungen, die von der Stimmungsanalyse und der Named Entity Recognition bis zur Fragebeantwortung reichen. Große Sprachmodelle (LLMs) haben sich bei einer Vielzahl von Aufgaben als effektiv erwiesen; jedoch wird in der Literatur kein LLM speziell für den Finanzbereich berichtet. In dieser Arbeit stellen wir BloombergGPT vor, ein Sprachmodell mit 50 Milliarden Parametern, das auf einem breiten Spektrum an Finanzdaten trainiert wurde. Wir haben einen Datensatz mit 363 Milliarden Token basierend auf Bloombergs umfangreichen Datenquellen erstellt, möglicherweise den größten branchenspezifischen Datensatz bisher, ergänzt durch 345 Milliarden Token aus allgemeinen Datensätzen. Wir validieren BloombergGPT anhand standardisierter Benchmarks für große Sprachmodelle, offener Finanzbenchmarks und einer Reihe interner Benchmarks, die unsere geplanten Anwendungsfälle am genauesten widerspiegeln. Unser Training mit gemischten Datensätzen führt zu einem Modell, das bei Finanzaufgaben erheblich bessere Ergebnisse erzielt als bestehende Modelle, ohne dabei die Leistung bei allgemeinen LLM-Benchmarks zu beeinträchtigen. Zudem erläutern wir unsere Modellierungsentcheidungen, den Trainingsprozess und die Evaluationsmethodik. Wir veröffentlichen die Trainingschroniken (Anhang C), in denen wir unser Erlebnis beim Training von BloombergGPT detailliert beschreiben.