HyperAIHyperAI
il y a 2 mois

Sélection rentable de données pré-entraînées : Étude de cas du pré-entraînement de BERT sur les médias sociaux

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
Sélection rentable de données pré-entraînées : Étude de cas du pré-entraînement de BERT sur les médias sociaux
Résumé

Des études récentes sur les modèles BERT spécifiques à un domaine montrent que l'efficacité sur les tâches en aval peut être améliorée lorsque les modèles sont pré-entraînés sur des données propres à ce domaine. Souvent, les données de pré-entraînement utilisées dans ces modèles sont sélectionnées en fonction de leur sujet, par exemple la biologie ou l'informatique. Étant donné la diversité d'applications utilisant des textes issus des médias sociaux et leur variété linguistique unique, nous avons pré-entraîné deux modèles respectivement sur des tweets et des textes de forums, et démontré empiriquement l'efficacité de ces deux ressources. De plus, nous avons examiné comment les mesures de similarité peuvent être utilisées pour désigner des données de pré-entraînement propres au domaine. Nous mettons nos modèles pré-entraînés à disposition du public à l'adresse suivante : https://bit.ly/35RpTf0.

Sélection rentable de données pré-entraînées : Étude de cas du pré-entraînement de BERT sur les médias sociaux | Articles de recherche récents | HyperAI