HyperAIHyperAI

Command Palette

Search for a command to run...

إطلاق التعميم التكويني في النماذج المُدرَّبة مسبقًا باستخدام التمثيلات الوسطى

Jonathan Herzig Peter Shaw Ming-Wei Chang Kelvin Guu Panupong Pasupat Yuan Zhang

الملخص

تُعد نماذج التسلسل إلى التسلسل (seq2seq) شائعة في تحليل الدلالة، لكنها وُجدت تعاني من صعوبة في التعميم التراكبي خارج التوزيع (out-of-distribution). وعلى الرغم من الاقتراحات التي تهدف إلى معالجة هذه المشكلة من خلال هياكل نماذج مخصصة أو تدريب مسبق للنماذج seq2seq، فإن الهياكل المخصصة غالبًا ما تأتي على حساب العامية، بينما يُظهر التدريب المسبق فقط نجاحًا محدودًا. في هذه الورقة، ندرس تأثير التمثيلات الوسيطة على التعميم التراكبي في النماذج seq2seq المُدرَّبة مسبقًا، دون أي تغيير في بنية النموذج، ونحدد الجوانب الأساسية لتصميم تمثيلات فعّالة. بدلًا من تدريب النموذج على التحويل المباشر من اللغة الطبيعية إلى شكل قابل للتنفيذ، نُحول إلى تمثيل وسيط قابل للعكس أو مفقود جزئيًا، يتمتع بتوافق هيكلّي أقوى مع اللغة الطبيعية. وتبين أن الجمع بين التمثيلات الوسيطة المقترحة والنموذج المُدرَّب مسبقًا فعّالًا بشكل مفاجئ، حيث حقق أفضل المزيج نتائج جديدة قياسية على مجموعة بيانات CFQ (+14.8 نقطة دقة)، وعلى تقسيمات القوالب لثلاث مجموعات بيانات تحويل النص إلى SQL (+15.0 إلى +19.4 نقطة دقة). تُبرز هذه الدراسة أن التمثيلات الوسيطة تمثل درجة حرية مهمة وربما تُهمل في تحسين قدرات النماذج seq2seq المُدرَّبة مسبقًا على التعميم التراكبي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp