مكتبة إنشاء النص 2.0: مكتبة لإنشاء النص باستخدام نماذج اللغة المدربة مسبقًا

لتسهيل البحث في توليد النصوص، يقدم هذا الورق بحثي مكتبة شاملة وموحدة، TextBox 2.0، تركز على استخدام نماذج اللغة المدربة مسبقًا (PLMs). لتحقيق الشمولية، تغطي مكتبتنا 13 مهمة شائعة لتوليد النصوص و83 مجموعة بيانات متناظرة معها، كما تتضمن 45 نموذجًا مدربًا مسبقًا يشمل النماذج العامة والترجمة والنماذج الصينية والحوار والتحكم والتقطير والإرشاد والنماذج الخفيفة (general, translation, Chinese, dialogue, controllable, distilled, prompting, and lightweight PLMs). كما قدمنا أربع استراتيجيات تدريب فعالة وأربعة أهداف توليد لتدريب نماذج اللغة المسبقة من الصفر. لتحقيق الوحدة، صممنا الواجهات لدعم خط الأنابيب البحثي بأكمله (من تحميل البيانات إلى التدريب والتقييم)، مما يضمن إنجاز كل خطوة بطريقة موحدة. رغم الوظائف الغنية التي توفرها المكتبة، فإن استخدامها سهل سواء عبر واجهة برمجة التطبيقات Python الودية أو عبر السطر الأمر. لتأكيد فعالية مكتبتنا، أجرينا العديد من التجارب الواسعة وأعطينا أمثلة على أربع حالات بحثية. تم إطلاق المشروع على الرابط: https://github.com/RUCAIBox/TextBox.