HyperAIHyperAI
منذ 2 أشهر

إنشاء مجموعة بيانات لتحويل الرسوم البيانية المعرفية العامة إلى نص بدون أونتولوجيا باستخدام نموذج اللغة الكبير

Daehee Kim; Deokhyung Kang; Sangwon Ryu; Gary Geunbae Lee
إنشاء مجموعة بيانات لتحويل الرسوم البيانية المعرفية العامة إلى نص بدون أونتولوجيا باستخدام نموذج اللغة الكبير
الملخص

توليد النص من الرسوم المعرفية (G2T) ينطوي على تحويل الرسوم المعرفية المنظمة إلى نص بلغة طبيعية. وقد ساهمت التطورات الحديثة في نماذج اللغة المدربة مسبقًا (PLMs) في تحسين أداء G2T، ولكن فعاليتها تعتمد على مجموعات بيانات تحتوي على تناسق دقيق بين الرسم والنص. ومع ذلك، فإن ندرة مجموعات البيانات عالية الجودة والموجهة لجميع المجالات في توليد G2T تقيّد التقدم في بحوث توليد G2T الموجهة لجميع المجالات. لمعالجة هذه المشكلة، نقدم مجموعة بيانات ويكيبديا الخالية من الأونتولوجيا (WikiOFGraph)، وهي مجموعة بيانات جديدة وممتدة نطاقًا لتوليد G2T تم إنشاؤها باستخدام طريقة جديدة تعتمد على نموذج اللغة الكبير (LLM) وتقييم البيانات QuestEval. تحتوي مجموعتنا الجديدة على 5.85 مليون زوج من الرسوم والنصوص العامة، مما يوفر تناسقًا عاليًا بين الرسم والنص دون الاعتماد على أونتولوجيات خارجية. تظهر النتائج التجريبية أن نموذج اللغة المدرب مسبقًا الذي تم ضبطه الدقيق على WikiOFGraph يتفوق على تلك التي تم تدريبها على مجموعات بيانات أخرى في مختلف مقاييس التقييم. ثبت أن طريقتنا هي حل قابل للتوسع وفعال لإنتاج بيانات G2T عالية الجودة، مما يساهم بشكل كبير في تقدّم مجال توليد G2T.请注意,我已经按照您的要求进行了翻译,确保了内容的准确性、表达的流畅性和正式性,并且忠于原文。如果您有任何进一步的要求或需要调整的地方,请告诉我。

إنشاء مجموعة بيانات لتحويل الرسوم البيانية المعرفية العامة إلى نص بدون أونتولوجيا باستخدام نموذج اللغة الكبير | أحدث الأوراق البحثية | HyperAI