HyperAIHyperAI
منذ 2 أشهر

BilBOWA: تمثيلات ثنائية اللغة موزعة بسرعة دون تطابق الكلمات

Stephan Gouws; Yoshua Bengio; Greg Corrado
BilBOWA: تمثيلات ثنائية اللغة موزعة بسرعة دون تطابق الكلمات
الملخص

نقدم نموذج BilBOWA (Bilingual Bag-of-Words without Alignments)، وهو نموذج بسيط وفعال من الناحية الحسابية لتعلم التمثيلات الموزعة للكلمات في اللغتين، والتي يمكن تطبيقها على مجموعات بيانات أحادية اللغة كبيرة ولا تتطلب بيانات تدريب متوازنة بالكلمات. بدلاً من ذلك، يتم التدريب مباشرة على البيانات الأحادية اللغة واستخراج إشارة ثنائية اللغة من مجموعة أصغر من البيانات النصية الجمل المتوازنة. يتم تحقيق هذا باستخدام هدف عابر للغات جديد يستند إلى حقيبة الكلمات المستخلصة، والذي يستخدم لتقييد نموذجين للغة مقارنتهما بالضوضاء لتحقيق تعلم خصائص فعّال عبر اللغات. نوضح أن الترميز الثنائي للغة الذي تم تعلمه باستخدام النموذج المقترح يتفوق على الطرق الرائدة في مجاله في مهمة تصنيف الوثائق العابرة للغات وفي مهمة الترجمة اللفظية باستخدام بيانات WMT11.

BilBOWA: تمثيلات ثنائية اللغة موزعة بسرعة دون تطابق الكلمات | أحدث الأوراق البحثية | HyperAI