التجميع المحدب لملخصات الآراء

التطورات الحديثة في ترميز النص التلقائي قد أثرت بشكل كبير على جودة الفضاء الكامن، مما يمكّن النماذج من إنتاج نصوص نحوية ومتسقة من المتجهات الكامنة المجمعة. كتطبيق ناجح لهذه الخاصية، تقوم نماذج تلخيص الآراء غير المشرف عليها بإنشاء الملخص عن طريق فك شفرة المتجهات الكامنة المجمعة للمدخلات. وبشكل أكثر تحديدًا، يتم تنفيذ التجميع عبر متوسط بسيط (simple average). ومع ذلك، فإن القليل معروف حول كيفية تأثير خطوة تجميع المتجهات على جودة الإنتاج. في هذه الدراسة، نعيد النظر في طريقة المتوسط البسيط الشائعة الاستخدام من خلال فحص الفضاء الكامن والملخصات المنتجة. وجدنا أن ترميز النص التلقائي يميل إلى إنتاج ملخصات عامة بشكل مفرط من متجهات كامنة تم حساب متوسطها ببساطة بسبب انكماش غير متوقع في $L_2$-norm في المتجهات الكامنة المجمعة، والتي نشير إليها باسم تدهور متجه الملخص. لتجاوز هذه المشكلة، قمنا بتطوير إطار عمل يُدعى Coop، الذي يقوم بالبحث عن تركيبات المدخلات لتجميع المتجهات الكامنة باستخدام اشتراك الكلمات بين المدخل والمخرج (input-output word overlap). أظهرت النتائج التجريبية أن Coop نجح في تخفيف مشكلة تدهور متجه الملخص وأقام أداءً جديدًا رائدًا في صدارة التقنيات على معاملتين لتخليق الآراء. يمكن الحصول على الرمز البرمجي من \url{https://github.com/megagonlabs/coop}.