HyperAIHyperAI
منذ 2 أشهر

الأفضل من العالمين: نقل المعرفة من التعلم التمييزي إلى نموذج الحوار البصري الجينراتيفي

Jiasen Lu; Anitha Kannan; Jianwei Yang; Devi Parikh; Dhruv Batra
الأفضل من العالمين: نقل المعرفة من التعلم التمييزي إلى نموذج الحوار البصري الجينراتيفي
الملخص

نقدم إطارًا تدريبيًا جديدًا لنموذج التسلسل العصبي، خاصةً في إنشاء الحوار المحدد (grounded dialog generation). النموذج التدريبي القياسي لهذه النماذج هو تقدير الأرجحية القصوى (MLE)، أو تقليل التباين المتقاطع للردود البشرية. في مجموعة متنوعة من المجالات، هناك مشكلة متكررة مع نماذج الحوار العصبية الإنشائية التي تم تدريبها باستخدام MLE (G) وهي أنها تميل إلى إنتاج ردود "آمنة" وعامة ("لا أعلم"، "لا يمكنني القول"). بالمقابل، فإن نماذج الحوار التمييزية (D) التي يتم تدريبها لتقييم قائمة من الردود البشرية المرشحة تتفوق على نظيراتها الإنشائية؛ من حيث المقاييس الآلية، تنوع الردود ومعلوماتيتها. ومع ذلك، فإن D ليست مفيدة في الواقع العملي لأنها لا يمكن أن تعمل بشكل فعلي في الحوارات الحقيقية مع المستخدمين.هدف عملنا هو تحقيق أفضل ما في العالمين - الفائدة العملية لـ G والأداء القوي لـ D - عبر نقل المعرفة من D إلى G. إسهامنا الرئيسي هو نموذج حوار بصري إنشائي قابل للتدريب من البداية إلى النهاية، حيث تتلقى G التدرجات من D كخسارة حسية (وليس خسارة متعارضة) للتسلسل الذي يتم عينه من G. نستفيد أيضًا من تقريب جومبل-سوفتماكس (Gumbel-Softmax) للموزع المتقطع - بتحديد، رمز تكراري (RNN) مدعم بمتوالية من عينات GS، مقترن بتقدير التدرج المباشر لتمكين الاشتقاق الكامل من البداية إلى النهاية. كما نقدم محودثًا أقوى للحوار البصري ونستخدم آلية انتباه ذاتي لتشفير الإجابات بالإضافة إلى خسارة تعليم المقاييس لمساعدة D في التقاط الشبهات الدلالية بشكل أفضل في ردود الإجابات. بشكل عام، يتفوق النموذج المقترح لدينا على أفضل التقنيات الموجودة في مجموعة بيانات VisDial بمعدل كبير (2.67% على recall@10). يمكن تنزيل الكود المصدر من https://github.com/jiasenlu/visDial.pytorch.

الأفضل من العالمين: نقل المعرفة من التعلم التمييزي إلى نموذج الحوار البصري الجينراتيفي | أحدث الأوراق البحثية | HyperAI