الملخص

يُعد إنشاء النص من البيانات (DTG) مجالًا فرعيًا من مجال توليد اللغة الطبيعية، ويهدف إلى تحويل البيانات المنظمة إلى وصفات بلغة طبيعية. وقد شهد هذا المجال نهضة كبيرة مؤخرًا بفضل استخدام المُولِّدات القائمة على الشبكات العصبية، التي تتميز بقدرات نحويّة ممتازة دون الحاجة إلى خطوط معالجة مصممة يدويًا؛ ولكن من ناحية أخرى، فإن جودة النص المُنتَج تعكس جودة بيانات التدريب، والتي في السياقات الواقعية توفر أزواجًا غير متطابقة تمامًا بين البنية والنص. نتيجة لذلك، تُضمَّن في مخرجات النماذج العصبية الحديثة عبارات مضللة - تُعرف عادةً بـ "الهلوسة" (hallucinations). ويعتبر التحكم في هذه الظاهرة اليوم أحد التحديات الرئيسية في مجال DTG، وهو بالضبط المشكلة التي يتناولها هذا البحث.في الدراسات السابقة، تم التعامل مع هذه المشكلة على مستوى كل مثال على حدة، وذلك باستخدام مؤشر تطابق لكل زوج من الجدول والمرجع. على النقيض من ذلك، نقترح نهجًا أكثر دقة، ونُقدّم رأيًا بأن الهلوسات ينبغي معالجتها على مستوى الكلمة. وبصورة محددة، نقدّم "مُفكّك متعدد الفروع" (Multi-Branch Decoder) الذي يتمكن من الاستفادة من التسميات على مستوى الكلمة لتعلم الأجزاء ذات الصلة في كل مثال تدريبي. وتُستخلص هذه التسميات من خلال إجراء تقييم بسيط وفعال يعتمد على تحليل التواجد المشترك (co-occurrence analysis) وتحليل الاعتماد النحوي (dependency parsing). وتبين التقييمات الموسعة، باستخدام مقاييس آلية وتقييم بشري على معيار WikiBio القياسي، دقة تسميات التوافق التي نقترحها، وفعالية المُفكّك المتعدد الفروع المُقترح. ويُظهر نموذجنا قدرته على تقليل وضبط الهلوسات، مع الحفاظ على سلاسة واتساق النص المُنتَج. كما تُظهر التجارب الإضافية على نسخة مُتدهورة من مجموعة ToTTo أن نموذجنا يمكن استخدامه بنجاح حتى في البيئات ذات الضوضاء العالية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

التحكم في التخيلات على مستوى الكلمة في توليد النص من البيانات

Clément Rebuffel Marco Roberti Laure Soulier Geoffrey Scoutheeten Rossella Cancelliere Patrick Gallinari

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التحكم في التخيلات على مستوى الكلمة في توليد النص من البيانات

Clément Rebuffel Marco Roberti Laure Soulier Geoffrey Scoutheeten Rossella Cancelliere Patrick Gallinari

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التحكم في التخيلات على مستوى الكلمة في توليد النص من البيانات

Clément Rebuffel Marco Roberti Laure Soulier Geoffrey Scoutheeten Rossella Cancelliere Patrick Gallinari

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters