HyperAIHyperAI
منذ 2 أشهر

الخسارة الموزونة بالتعقيد وإعادة الترتيب المتنوع لتبسيط الجمل

Reno Kriz; João Sedoc; Marianna Apidianaki; Carolina Zheng; Gaurav Kumar; Eleni Miltsakaki; Chris Callison-Burch
الخسارة الموزونة بالتعقيد وإعادة الترتيب المتنوع لتبسيط الجمل
الملخص

تبسيط الجمل هو مهمة إعادة كتابة النصوص بحيث تصبح أسهل فهمًا. وقد طبقت البحوث الحديثة نماذج التحويل من تسلسل إلى تسلسل (Seq2Seq) على هذه المهمة، مع التركيز بشكل كبير على تحسينات وقت التدريب عبر التعلم التعزيزي وتوسيع الذاكرة. أحد المشكلات الرئيسية في تطبيق نماذج Seq2Seq العامة للتبسيط هو أن هذه النماذج تميل إلى نسخ الجمل الأصلية مباشرة، مما يؤدي إلى إنتاج جمل طويلة ومعقدة نسبيًا. نهدف إلى تخفيف هذه المشكلة من خلال استخدام تقنيتين رئيسيتين. أولاً، ندمج تعقيدات الكلمات الأساسية، كما يتم التنبؤ بها باستخدام نموذج تعقيد الكلمات المتدرج، في دالة الخسارة لدينا أثناء التدريب. ثانيًا، نولد مجموعة كبيرة ومتنوعة من المرشحات المبسطة في وقت الاختبار، وإعادة تصنيفها لتعزيز السلاسة والكفاية والتبسيط. وهنا، نقيس البساطة من خلال نموذج جديد لتعقيد الجمل (sentence complexity model). تسهم هذه الإضافات في تمكين نماذجنا من المنافسة بفعالية مع أفضل الأنظمة الحالية بينما تقوم بإنتاج جمل أكثر بساطة. ونقدم مقاييس التقييم الآلي والبشري القياسية.

الخسارة الموزونة بالتعقيد وإعادة الترتيب المتنوع لتبسيط الجمل | أحدث الأوراق البحثية | HyperAI