HyperAIHyperAI
منذ 2 أشهر

بولي-مُشفِّرات: هياكل الترانسفورمر واستراتيجيات التدريب المسبق للتصنيف السريع والدقيق للجمل المتعددة

Samuel Humeau; Kurt Shuster; Marie-Anne Lachaux; Jason Weston
بولي-مُشفِّرات: هياكل الترانسفورمر واستراتيجيات التدريب المسبق للتصنيف السريع والدقيق للجمل المتعددة
الملخص

استخدام النماذج العميقة المدربة مسبقًا والمتحولات ثنائية الاتجاه قد أدى إلى تقدم ملحوظ في عدد من التطبيقات (ديفلين وآخرون، 2018). فيما يتعلق بالمهام التي تتطلب مقارنات زوجية بين التسلسلات، والتي تطابق إدخال معين مع التسمية المرتبطة به، هناك طريقتان شائعتان: المُشفرات المتقاطعة التي تقوم بعملية الانتباه الذاتي الكامل على الزوج، والمُشفرات الثنائية التي تقوم بتشفير الزوج بشكل منفصل. غالبًا ما تكون الأولى أفضل في الأداء، لكنها بطيئة جدًا للاستخدام العملي. في هذا البحث، نطور هندسة متحول جديدة تُعرف باسم Poly-encoder (متغير متعدد)، والتي تتعلم خصائص الانتباه الذاتي العالمية بدلاً من خصائص مستوى الرمز. نقوم بمقارنة مفصلة لكل من هذه النهج الثلاثة، بما في ذلك استراتيجيات التدريب المسبق والتنعيم الدقيق الأكثر فعالية. نظهر أن نماذجنا حققت نتائج رائدة على ثلاث مهام قائمة؛ وأن Poly-encoders (المتحول المتعدد) أسرع من Cross-encoders (المتحول المتقاطع) وأكثر دقة من Bi-encoders (المتحول الثنائي)؛ وأن أفضل النتائج يتم الحصول عليها عن طريق التدريب المسبق على قواعد بيانات كبيرة مشابهة للمهام اللاحقة.