HyperAIHyperAI
منذ 11 أيام

BARThez: نموذج تسلسلي مُدرّب مسبقًا فرنسي مُتقن

Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis
BARThez: نموذج تسلسلي مُدرّب مسبقًا فرنسي مُتقن
الملخص

لقد أحدث التعلم النمطي المنقولة ثورة في مجال معالجة اللغة الطبيعية بالكامل، حيث وضع نماذج مثل BERT وBART أرقامًا قياسية جديدة في مهام عدد لا يحصى من فهم اللغة الطبيعية (NLU). ومع ذلك، فإن معظم النماذج والبحوث المتاحة حتى الآن تركزت على اللغة الإنجليزية. في هذه الدراسة، نقدم BARThez، أول نموذج كبير مُدرّب مسبقًا على التسلسل إلى التسلسل (seq2seq) للغة الفرنسية. وبما أن BARThez مبني على نموذج BART، فإنه يُعدّ مناسبًا بشكل خاص للمهام الإبداعية. وقد قمنا بتقييم BARThez على خمس مهام تمييزية من معيار FLUE، ومهامين إبداعيتين من مجموعة بيانات ملخص جديدة أطلقنا عليها اسم OrangeSum، تم إنشاؤها خصيصًا لهذه الدراسة. ونُظهر أن BARThez يتفوّق بشكل كبير على النماذج الفرنسية الحديثة القائمة على BERT مثل CamemBERT وFlauBERT. كما نواصل عملية التدريب المسبق لنموذج متعدد اللغات مبني على BART باستخدام مجموعة بيانات BARThez، ونُظهر أن النموذج الناتج، المسمى mBARThez، يُحسّن بشكل كبير من أداء BARThez في المهام الإبداعية. وتتوفر الكود، والبيانات، والنماذج بشكل عام للجمهور.

BARThez: نموذج تسلسلي مُدرّب مسبقًا فرنسي مُتقن | أحدث الأوراق البحثية | HyperAI