HyperAIHyperAI
منذ 2 أشهر

التجميع المحدب لملخصات الآراء

Hayate Iso; Xiaolan Wang; Yoshihiko Suhara; Stefanos Angelidis; Wang-Chiew Tan
التجميع المحدب لملخصات الآراء
الملخص

التطورات الحديثة في ترميز النص التلقائي قد أثرت بشكل كبير على جودة الفضاء الكامن، مما يمكّن النماذج من إنتاج نصوص نحوية ومتسقة من المتجهات الكامنة المجمعة. كتطبيق ناجح لهذه الخاصية، تقوم نماذج تلخيص الآراء غير المشرف عليها بإنشاء الملخص عن طريق فك شفرة المتجهات الكامنة المجمعة للمدخلات. وبشكل أكثر تحديدًا، يتم تنفيذ التجميع عبر متوسط بسيط (simple average). ومع ذلك، فإن القليل معروف حول كيفية تأثير خطوة تجميع المتجهات على جودة الإنتاج. في هذه الدراسة، نعيد النظر في طريقة المتوسط البسيط الشائعة الاستخدام من خلال فحص الفضاء الكامن والملخصات المنتجة. وجدنا أن ترميز النص التلقائي يميل إلى إنتاج ملخصات عامة بشكل مفرط من متجهات كامنة تم حساب متوسطها ببساطة بسبب انكماش غير متوقع في $L_2$-norm في المتجهات الكامنة المجمعة، والتي نشير إليها باسم تدهور متجه الملخص. لتجاوز هذه المشكلة، قمنا بتطوير إطار عمل يُدعى Coop، الذي يقوم بالبحث عن تركيبات المدخلات لتجميع المتجهات الكامنة باستخدام اشتراك الكلمات بين المدخل والمخرج (input-output word overlap). أظهرت النتائج التجريبية أن Coop نجح في تخفيف مشكلة تدهور متجه الملخص وأقام أداءً جديدًا رائدًا في صدارة التقنيات على معاملتين لتخليق الآراء. يمكن الحصول على الرمز البرمجي من \url{https://github.com/megagonlabs/coop}.

التجميع المحدب لملخصات الآراء | أحدث الأوراق البحثية | HyperAI