HyperAIHyperAI
منذ 8 أيام

التصفية الموازية للنماذج النصية باستخدام نماذج اللغة المُدرَّبة مسبقًا

Boliang Zhang, Ajay Nagesh, Kevin Knight
التصفية الموازية للنماذج النصية باستخدام نماذج اللغة المُدرَّبة مسبقًا
الملخص

توفر البيانات المستخرجة من الويب مصدراً جيداً للمجموعات المتوازية لتدريب نماذج الترجمة الآلية. إذ تُحصل عليها تلقائياً، لكنها مليئة بالضوضاء، وقد أظهرت الدراسات الحديثة أن نماذج الترجمة الآلية العصبية أكثر حساسية تجاه الضوضاء مقارنة بطرق الترجمة الإحصائية التقليدية. في هذه الورقة، نقترح منهجية جديدة لتصفية أزواج الجمل الضوضائية من المجموعات المستخرجة من الويب باستخدام نماذج اللغة المُدرَّبة مسبقاً. نقيس درجة التوازي بين الجمل باستخدام القدرة المتعددة اللغات لنموذج BERT، ونستخدم نموذج GPT المُدرَّب توليدياً كمرشح مجالي لموازنة توزيع البيانات عبر المجالات. تم تقييم المنهجية المقترحة في مهمة تصفية المجموعات المتوازية في WMT 2018، وكذلك على مجموعة بيانات متوازية يابانية-صينية نقوم بجمعها من الويب. أظهرت النتائج أن منهجيتنا تتفوق بشكل كبير على النماذج الأساسية، وتحقيق أفضل أداء مسجَّل حتى الآن. وفي البيئة غير المراقبة، تحقق منهجيتنا أداءً مماثلاً للنموذج المُدرَّب بدرجة أعلى في الظروف المراقبة. كما قمنا بتقييم الأداء على مجموعة بيانات متوازية يابانية-صينية مستخرجة من الويب، والتي نُشرت بشكل مفتوح للجمهور.

التصفية الموازية للنماذج النصية باستخدام نماذج اللغة المُدرَّبة مسبقًا | أحدث الأوراق البحثية | HyperAI