HyperAIHyperAI
منذ 2 أشهر

توسيع التلخيص: الاستفادة من نماذج اللغة الكبيرة لتلخيص النصوص الطويلة بطريقة استخراجية

Léo Hemamou; Mehdi Debiane
توسيع التلخيص: الاستفادة من نماذج اللغة الكبيرة لتلخيص النصوص الطويلة بطريقة استخراجية
الملخص

في عصر يشهد فيه النص الرقمي انتشارًا غير مسبوق، أصبحت أدوات التلخيص الفعالة ضرورية بشكل متزايد. رغم أن نماذج اللغات الكبيرة (LLMs) قد تم تطبيقها بنجاح في العديد من مهام معالجة اللغة الطبيعية (NLP)، إلا أن دورها في التلخيص الاستخراجي للنصوص لا يزال قليل الاستكشاف. يقدم هذا البحث إطار عمل يُدعى EYEGLAXS (نظام سهل وفعال يستخدم نموذج لغة كبير لالتقاط الملخصات (Easy Yet Efficient larGe LAnguage model for eXtractive Summarization))، والذي يستفيد من نماذج اللغات الكبيرة، وبشكل خاص LLAMA2-7B و ChatGLM2-6B، لتقديم ملخصات استخراجية للوثائق النصية الطويلة. بدلاً من الطرق التجريدية التي تعاني غالبًا من مشاكل مثل عدم الدقة الحقيقية والتخيلات، يركز EYEGLAXS على التلخيص الاستخراجي لضمان السلمية الحقيقية والنحوية. باستخدام تقنيات حديثة مثل الانتباه السريع (Flash Attention) والتحسين الفعال للمعلمات (Parameter-Efficient Fine-Tuning - PEFT)، يعالج EYEGLAXS التحديات الحسابية والموردية المرتبطة عادةً بنماذج اللغات الكبيرة. يحدد النظام معايير أداء جديدة على قواعد بيانات معروفة مثل PubMed و ArXiv. بالإضافة إلى ذلك، نوسع بحثنا من خلال تحليلات إضافية تستكشف قابلية تكيف نماذج اللغات الكبيرة في التعامل مع طول المتتابعات المختلفة وكفاءتها في التدريب على قواعد بيانات أصغر. هذه المساهمات لا تضع فقط معيارًا جديدًا في المجال فحسب، بل تفتح أيضًا آفاقًا واعدة للبحوث المستقبلية في التلخيص الاستخراجي للنصوص.

توسيع التلخيص: الاستفادة من نماذج اللغة الكبيرة لتلخيص النصوص الطويلة بطريقة استخراجية | أحدث الأوراق البحثية | HyperAI