HyperAIHyperAI
منذ 2 أشهر

جسر الفجوة بين المجالات في تصنيف الوثائق متعددة اللغات

Guokun Lai; Barlas Oguz; Yiming Yang; Veselin Stoyanov
جسر الفجوة بين المجالات في تصنيف الوثائق متعددة اللغات
الملخص

ندرة البيانات التدريبية المصنفة غالباً ما تحول دون توطين نماذج معالجة اللغة الطبيعية (NLP) إلى عدة لغات. وقد أحرزت التطورات الحديثة في الفهم العابر لللغات (XLU) تقدماً في هذا المجال، محاولة جسر الهوة اللغوية باستخدام تمثيلات عالمية للغة. ومع ذلك، حتى لو تم حل مشكلة اللغة، لن يتم نقل النماذج التي تم تدريبها بلغة واحدة إلى لغة أخرى بشكل مثالي بسبب الانحراف الطبيعي في المجال بين اللغات والثقافات. نحن ندرس الإعداد شبه المشرف عليه للفهم العابر للغات، حيث تكون البيانات المصنفة متاحة باللغة المصدر (الإنجليزية)، ولكن البيانات غير المصنفة فقط متاحة باللغة الهدف. نجمع بين أحدث الأساليب العابرة للغات مع الأساليب المقترحة حديثاً للتعلم شبه المشرف مثل التدريب غير المشرف والزيادة غير المشرفة للبيانات لإغلاق الهوة اللغوية والهوة المجالية في XLU بشكل متزامن. نظهر أن معالجة الهوة المجالية أمر حاسم. نحسن على خطوط الأساس القوية ونحقق مستوى جديد من الطليعية في تصنيف الوثائق العابر للغات.

جسر الفجوة بين المجالات في تصنيف الوثائق متعددة اللغات | أحدث الأوراق البحثية | HyperAI