HyperAIHyperAI
منذ 2 أشهر

اختيار البيانات الأولية بفعالية من حيث التكلفة: دراسة حالة لتدريب BERT المسبق على وسائل التواصل الاجتماعي

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
اختيار البيانات الأولية بفعالية من حيث التكلفة: دراسة حالة لتدريب BERT المسبق على وسائل التواصل الاجتماعي
الملخص

دراسات حديثة حول نماذج BERT المحددة للنطاق تظهر أن فعالية هذه النماذج في المهام اللاحقة يمكن تحسينها عند تدريبها مسبقًا على بيانات ضمن نطاق معين. غالبًا ما يتم اختيار بيانات التدريب المسبق لهذه النماذج بناءً على موضوعاتها، مثل الأحياء أو علوم الحاسوب. بالنظر إلى مدى تنوع التطبيقات التي تستفيد من نصوص وسائل التواصل الاجتماعي ولغتها الفريدة، قمنا بتدريب نموذجين مسبقًا على التغريدات ونصوص المنتديات على التوالي، وأثبتنا بشكل تجريبي فعالية هذين المصدرين. بالإضافة إلى ذلك، درسنا كيفية استخدام مقاييس الشبه لترشيح بيانات التدريب المسبق ضمن النطاق. وقد أطلقنا نماذجنا المدربة مسبقًا للجمهور في الرابط https://bit.ly/35RpTf0.

اختيار البيانات الأولية بفعالية من حيث التكلفة: دراسة حالة لتدريب BERT المسبق على وسائل التواصل الاجتماعي | أحدث الأوراق البحثية | HyperAI