HyperAIHyperAI
منذ 2 أشهر

شبكة الانتباه المسبقة النحوية لضغط الجمل

Hidetaka Kamigaito; Manabu Okumura
شبكة الانتباه المسبقة النحوية لضغط الجمل
الملخص

ضغط الجمل هو مهمة تتمثل في ضغط جملة طويلة إلى جملة قصيرة عن طريق حذف الكلمات الزائدة. في النماذج القائمة على التسلسل إلى تسلسل (Seq2Seq)، يقرر المفكك بشكل أحادي الاتجاه الاحتفاظ أو حذف الكلمات. وبالتالي، لا يمكنه عادةً التقاط العلاقات بين الكلمات المفككة والكلمات غير المرئية التي سيتم فك شفرتها في خطوات زمنية مستقبلية بشكل صريح. لذلك،为了避免生成不合语法的句子,解码器在压缩句子时有时会丢弃重要的单词。为了解决这个问题,我们提出了一种新颖的 Seq2Seq 模型,即句法前瞻注意力网络 (SLAHAN),该模型可以通过在解码过程中显式跟踪依赖父词和子词并捕捉未来将要解码的重要词来生成信息丰富的摘要。对 Google 句子压缩数据集进行自动评估的结果显示,SLAHAN 在基于保留标记的 F1、ROUGE-1、ROUGE-2 和 ROUGE-L 分数上分别达到了 85.5、79.3、71.3 和 79.1 的最佳成绩。SLAHAN 还提高了对较长句子的摘要性能。此外,在人工评估中,SLAHAN 在不牺牲可读性的前提下提高了信息量。为了使这段文字更符合阿拉伯语的表达习惯,以下是优化后的翻译:ضغط الجمل هو مهمة تتمثل في ضغط جملة طويلة إلى جملة قصيرة من خلال حذف الكلمات الزائدة. في النماذج القائمة على التسلسل إلى تسلسل (Seq2Seq)، يتخذ المفكك قرارات أحادية الاتجاه بشأن الاحتفاظ أو حذف الكلمات. وبالتالي، لا يمكنه عادةً التقاط العلاقات بوضوح بين الكلمات التي تم فك شفرتها والكلمات التي سيتم فك شفرتها في الخطوات الزمنية المستقبلية. لذلك، لتجنب إنتاج جمل غير مطابقة للقواعد النحوية، قد يقوم المفكك أحيانًا بحذف كلمات مهمة أثناء ضغط الجمل.لحل هذه المشكلة، نقترح نموذج Seq2Seq جديدًا يُعرف بشبكة الانتباه المتقدم نحو الجملة (SLAHAN). هذا النموذج قادر على إنشاء ملخصات غنية بالمعلومات من خلال تتبع الكلمات الأبوية والابنة المعتمدة بشكل صريح أثناء عملية الفك الشفرة وتقاطع الكلمات الهامة التي سيتم فك شفرتها في المستقبل.أظهرت نتائج التقييم الآلي على مجموعة بيانات ضغط الجمل من Google أن SLAHAN حققت أفضل درجات F1 المستندة إلى الحفظ (kept-token-based-F1)، و ROUGE-1، و ROUGE-2، و ROUGE-L بمعدلات 85.5، 79.3، 71.3، و 79.1 على التوالي. كما ساهمت SLAHAN في تحسين أداء الملخصات للجمل الطويلة.بالإضافة إلى ذلك، وفي التقييم البشري، أثبتت SLAHAN أنها تحسن المعلوماتية دون المساس بالقابلية للقراءة.

شبكة الانتباه المسبقة النحوية لضغط الجمل | أحدث الأوراق البحثية | HyperAI