HyperAIHyperAI

Command Palette

Search for a command to run...

CiteSum: التلخيص العلمي الموجه بنص الاستشهاد والتكيف النطقي بوجود إشراف محدود

Yuning Mao Ming Zhong Jiawei Han

الملخص

الملخص العلمي المكثف (TLDR) يهدف إلى إنشاء ملخصات قصيرة جداً لأوراق البحث العلمية. فشلت الجهود السابقة في تجميع مجموعات بيانات TLDR العلمية في التوسع بسبب الحاجة الكبيرة للتدقيق البشري والخبرة المتخصصة في المجال. في هذا البحث، نقترح طريقة بسيطة ومعتبرة لاستخراج الملخصات المكثفة تلقائياً من النصوص الاستشهادية لأوراق البحث العلمية. استناداً إلى الطريقة المقترحة، أنشأنا مقاييس جديدة تُسمى CiteSum دون الحاجة للتدقيق البشري، وهي أكبر بحوالي 30 مرة من مجموعة البيانات السابقة التي تم تجميعها يدوياً SciTLDR. أجرينا تحليلًا شاملًا لـ CiteSum، حيث فحصنا خصائص بياناتها وأقمنا خطوط أساس قوية. علاوة على ذلك، أظهرنا فائدة CiteSum من خلال تكييف النماذج التي تم تدريبها مسبقًا على CiteSum (وتُسمى CITES) للمهام والمجالات الجديدة مع إشراف محدود. فيما يتعلق بالملخص العلمي المكثف، حققت CITES أفضل النتائج مقارنة بأغلب الطرق ذات الإشراف الكامل على SciTLDR دون أي تعديل دقيق وحصلت على أفضل النتائج الحالية باستخدام فقط 128 مثالاً. بالنسبة لملخص الأخبار المكثف، حققت CITES ارتفاعاً كبيراً في أدائها على XSum مقارنة بنموذجها الأساسي (الذي لم يتم تدريبه مسبقاً على CiteSum)، مثل +7.2 نقطة في مؤشر ROUGE-1 للأداء بدون إشراف ونتائج قليلة الإشراف تعتبر الأفضل حاليًا. بالنسبة لإنشاء عناوين الأخبار، كانت CITES الأفضل بين الطرق غير المشرف عليها والأداء بدون إشراف على Gigaword. يمكن العثور على مجموعة البيانات وكود البرامج الخاصة بنا في https://github.com/morningmoni/CiteSum.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp