التعلم التناقضي المشرف عليه بمستويين لاختيار الرد في الحوار متعدد الأدوار

اختيار استجابة مناسبة من بين العديد من المرشحين بناءً على التصريحات في حوار متعدد الدورات هو المشكلة الرئيسية لنظام الحوار القائم على الاسترجاع. تُصنَّف الأعمال الحالية هذه المهمة كتطابق بين التصريحات ومرشح، وتستخدم خسارة التقاطع الانتروبي (cross-entropy loss) في تعلم النموذج. يطبق هذا البحث التعلم المقارن على المشكلة باستخدام خسارة المقارنة الإشرافية (supervised contrastive loss). بهذه الطريقة، يمكن فصل تمثيلات الأمثلة الإيجابية عن تمثيلات الأمثلة السلبية بشكل أكبر في مساحة التضمين، مما يعزز أداء التطابق. نطور أيضًا طريقة جديدة للتعلم المقارن الإشرافي، والتي تُعرف بالتعلم المقارن الإشرافي ذو المستويين، ونستعمل هذه الطريقة في اختيار الاستجابة في حوار متعدد الدورات. تعتمد طريقتنا على تقنيتين: إعادة ترتيب رموز الجمل (STS) وإعادة ترتيب الجمل (SR) للتعلم المقارن الإشرافي. تظهر نتائج التجارب على ثلاثة مجموعات بيانات مرجعية أن الطريقة المقترحة تتخطى بشكل كبير أساسيات التعلم المقارن وأفضل الأساليب الحالية للمهمة.