منذ 2 أشهر
اختيار البيانات الأولية بفعالية من حيث التكلفة: دراسة حالة لتدريب BERT المسبق على وسائل التواصل الاجتماعي
Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris

الملخص
دراسات حديثة حول نماذج BERT المحددة للنطاق تظهر أن فعالية هذه النماذج في المهام اللاحقة يمكن تحسينها عند تدريبها مسبقًا على بيانات ضمن نطاق معين. غالبًا ما يتم اختيار بيانات التدريب المسبق لهذه النماذج بناءً على موضوعاتها، مثل الأحياء أو علوم الحاسوب. بالنظر إلى مدى تنوع التطبيقات التي تستفيد من نصوص وسائل التواصل الاجتماعي ولغتها الفريدة، قمنا بتدريب نموذجين مسبقًا على التغريدات ونصوص المنتديات على التوالي، وأثبتنا بشكل تجريبي فعالية هذين المصدرين. بالإضافة إلى ذلك، درسنا كيفية استخدام مقاييس الشبه لترشيح بيانات التدريب المسبق ضمن النطاق. وقد أطلقنا نماذجنا المدربة مسبقًا للجمهور في الرابط https://bit.ly/35RpTf0.