HyperAIHyperAI
منذ 11 أيام

GenWiki: مجموعة بيانات مكوّنة من 1.3 مليون نص ورسم بياني يُشار فيه إلى المحتوى لتمثيل التوليد غير المُراقب للرسم البياني إلى النص

{Zheng Zhang, Xipeng Qiu, Qipeng Guo, Zhijing Jin}
GenWiki: مجموعة بيانات مكوّنة من 1.3 مليون نص ورسم بياني يُشار فيه إلى المحتوى لتمثيل التوليد غير المُراقب للرسم البياني إلى النص
الملخص

جمع البيانات لتحويل الرسم المعرفي إلى نص مكلف للغاية. ونتيجة لذلك، ظهرت أبحاث النماذج غير المراقبة كمجال نشط مؤخرًا. ومع ذلك، فإن معظم النماذج غير المراقبة تُجبر على استخدام نسخ غير متوازية من المجموعات الصغيرة الحالية المُدرَّبة مسبقًا، مما يحد بشكل كبير من إمكاناتها. في هذه الورقة، نقترح مجموعة بيانات كبيرة النطاق وعامة المجال، تُسمى GenWiki. تحتوي مجموعتنا غير المراقبة على 1.3 مليون مثال نصي ومثال رسومي على التوالي. وباستخدام مجموعة اختبار تم تعيينها يدويًا، نقدم هذه المجموعة الجديدة كمعيار مرجعي (Benchmark) للبحث المستقبلي في إنشاء النصوص غير المراقبة من الرسوم المعرفية.

GenWiki: مجموعة بيانات مكوّنة من 1.3 مليون نص ورسم بياني يُشار فيه إلى المحتوى لتمثيل التوليد غير المُراقب للرسم البياني إلى النص | أحدث الأوراق البحثية | HyperAI