HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration de l’impact de la diversité du corpus sur les modèles linguistiques préentraînés financiers

Jaeyoung Choe Keonwoong Noh Nayeon Kim Seyun Ahn Woohwan Jung

Résumé

Ces dernières années, divers modèles pré-entraînés sur des domaines spécifiques (PLM) ont été proposés et ont dépassé les modèles pré-entraînés sur des domaines généraux dans des domaines spécialisés tels que le domaine biomédical, scientifique et clinique. Par ailleurs, des PLM financiers ont été étudiés en raison de l’impact économique élevé de l’analyse des données financières. Toutefois, nous avons constaté que les PLM financiers n’avaient pas été pré-entraînés sur des données financières suffisamment diversifiées. Ce manque de diversité dans les données d’entraînement entraîne une performance de généralisation insuffisante, ce qui fait que des PLM généraux, tels que BERT, surpassent souvent les PLM financiers sur de nombreuses tâches en aval. Pour remédier à ce problème, nous avons collecté une large gamme de corpus financiers et avons entraîné un modèle linguistique financier, nommé FiLM, sur ces jeux de données diversifiés. Nos résultats expérimentaux confirment que FiLM surpasse non seulement les PLM financiers existants, mais aussi les PLM généraux. En outre, nous fournissons des preuves empiriques selon lesquelles cette amélioration peut être obtenue même pour des groupes de corpus inédits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp