BloombergGPT : Un grand modèle de langage pour la finance

L'utilisation du traitement du langage naturel (NLP) dans le domaine de la technologie financière est vaste et complexe, avec des applications allant de l'analyse de sentiment et de la reconnaissance d'entités nommées à la réponse aux questions. Les grands modèles linguistiques (LLMs) ont fait preuve d'efficacité sur une variété de tâches ; cependant, aucun LLM spécialisé dans le domaine financier n'a été signalé dans la littérature. Dans ce travail, nous présentons BloombergGPT, un modèle linguistique de 50 milliards de paramètres formé sur une large gamme de données financières. Nous avons construit un ensemble de données de 363 milliards de jetons basé sur les sources de données étendues de Bloomberg, peut-être le plus grand ensemble de données spécifique à un domaine jusqu'à présent, augmenté par 345 milliards de jetons provenant d'ensembles de données à usage général. Nous validons BloombergGPT sur des benchmarks standards pour les LLMs, des benchmarks financiers ouverts et une série de benchmarks internes qui reflètent le mieux notre utilisation prévue. Notre formation sur un ensemble mixte de données conduit à un modèle qui surpass les modèles existants sur les tâches financières avec des marges significatives sans compromettre les performances sur les benchmarks standards pour les LLMs. De plus, nous expliquons nos choix modélisés, notre processus d'entraînement et notre méthodologie d'évaluation. Nous publions les Chroniques d'entraînement (Annexe C) détaillant notre expérience lors de la formation de BloombergGPT.