Command Palette
Search for a command to run...
توليد مقتطفات استنتاجية
توليد مقتطفات استنتاجية
Wei-Fan Chen Shahbaz Syed Benno Stein Matthias Hagen Martin Potthast
الملخص
الملخص الاستنتاجي هو نص مُعدّ حديثًا يُستخدم لتلخيص صفحة ويب على صفحة نتائج محرك البحث. مقارنةً بالملخصات الاستخراجية التقليدية، التي تُولَّد عبر استخراج عبارات وجمل حرفيًا من صفحة الويب، فإن الملخصات الاستنتاجية تتجنب مشكلات حقوق الملكية؛ والأكثر إثارة للاهتمام هو أنها تفتح الباب أمام التخصيص. وقد تم تقييم الملخصات الاستنتاجية على أنها مساوية من حيث قبول المستخدم والتعبيرية، لكن السؤال الجوهري يظل: هل يمكن إنشاء ملخصات استنتاجية تلقائيًا بجودة كافية؟يقدّم هذا البحث منهجًا جديدًا لإنشاء الملخصات الاستنتاجية: نحدد أول مصدرين على نطاق واسع لتقديم تدريب عن بعد، وهما سياقات المفاتيح (anchor contexts) ودليل الويب (web directories). من خلال استخراج سياقات المفاتيح من كامل مجموعة ClueWeb09 وClueWeb12، واستخدام مشروع دليل DMOZ المفتوح، نُعدّل مجموعة بيانات Webis Abstractive Snippet Corpus 2020، التي تتضمّن أكثر من 3.5 مليون ثلاثية على الشكل ⟨query, snippet, document⟩ كعينات تدريب، حيث يكون الملخص إما سياقًا لمفتاح أو وصفًا لدليل ويب بديلًا عن ملخص استنتاجي حقيقي مُخصص للبحث. نقترح نموذجًا ثنائي الاتجاه لإنشاء الملخصات الاستنتاجية، ونقيّم جودة مجموعتنا ونماذج الملخصات الناتجة باستخدام مقاييس قياسية، وجمع آراء من مجموعات متعددة من المستخدمين، ومُقارنة مع أحدث التقنيات. تُظهر النتائج أن مصادر البيانات الجديدة المقترحة مع النموذج المُقترح تُمكّن من إنتاج ملخصات استنتاجية مخصصة للبحث وقابلة للاستخدام، مع تقليل الاستخدام المتكرر للنصوص.