HyperAIHyperAI
منذ 17 أيام

إطلاق التعميم التكويني في النماذج المُدرَّبة مسبقًا باستخدام التمثيلات الوسطى

Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang
إطلاق التعميم التكويني في النماذج المُدرَّبة مسبقًا باستخدام التمثيلات الوسطى
الملخص

تُعد نماذج التسلسل إلى التسلسل (seq2seq) شائعة في تحليل الدلالة، لكنها وُجدت تعاني من صعوبة في التعميم التراكبي خارج التوزيع (out-of-distribution). وعلى الرغم من الاقتراحات التي تهدف إلى معالجة هذه المشكلة من خلال هياكل نماذج مخصصة أو تدريب مسبق للنماذج seq2seq، فإن الهياكل المخصصة غالبًا ما تأتي على حساب العامية، بينما يُظهر التدريب المسبق فقط نجاحًا محدودًا. في هذه الورقة، ندرس تأثير التمثيلات الوسيطة على التعميم التراكبي في النماذج seq2seq المُدرَّبة مسبقًا، دون أي تغيير في بنية النموذج، ونحدد الجوانب الأساسية لتصميم تمثيلات فعّالة. بدلًا من تدريب النموذج على التحويل المباشر من اللغة الطبيعية إلى شكل قابل للتنفيذ، نُحول إلى تمثيل وسيط قابل للعكس أو مفقود جزئيًا، يتمتع بتوافق هيكلّي أقوى مع اللغة الطبيعية. وتبين أن الجمع بين التمثيلات الوسيطة المقترحة والنموذج المُدرَّب مسبقًا فعّالًا بشكل مفاجئ، حيث حقق أفضل المزيج نتائج جديدة قياسية على مجموعة بيانات CFQ (+14.8 نقطة دقة)، وعلى تقسيمات القوالب لثلاث مجموعات بيانات تحويل النص إلى SQL (+15.0 إلى +19.4 نقطة دقة). تُبرز هذه الدراسة أن التمثيلات الوسيطة تمثل درجة حرية مهمة وربما تُهمل في تحسين قدرات النماذج seq2seq المُدرَّبة مسبقًا على التعميم التراكبي.

إطلاق التعميم التكويني في النماذج المُدرَّبة مسبقًا باستخدام التمثيلات الوسطى | أحدث الأوراق البحثية | HyperAI