HyperAIHyperAI
منذ 12 أيام

الترميز العصبي لإنتاج النصوص باللغة التشيكية: البيانات والأساسيات

{Filip Jur{\v{c}}{\'\i}{\v{c}}ek, Ond{\v{r}}ej Du{\v{s}}ek}
الترميز العصبي لإنتاج النصوص باللغة التشيكية: البيانات والأساسيات
الملخص

نقدم أول مجموعة بيانات مخصصة للتخليق اللغوي الطبيعي من النص إلى النص (NLG) بشكل كامل باللغة التشيكية في مجال المطاعم، إلى جانب عدة نماذج أساسية قوية تستخدم نهج التسلسل إلى التسلسل. وعلى الرغم من أن التخليق اللغوي الطبيعي غير الإنجليزية يظل مجالًا غير مُستكشف بشكل كافٍ بشكل عام، فإن اللغة التشيكية، بكونها لغة غنية بالتركيب الصوتي، تجعل المهمة أكثر صعوبة: إذ تتطلب اللغة التشيكية إضافة الصيغ النحوية إلى الأسماء المعرفة، مما يعني أن تقنيات التفكيك أو آلية النسخ لا تعمل بشكل مباشر، كما أن عملية إعادة الترجمة (التكسيّة) للنتائج المولدة ليست بسيطة. في تجاربنا، نقدم طريقتين مختلفتين لمعالجة هذه المشكلة: (1) استخدام نموذج لغوي عصبي لاختيار الصيغة المُستَفْعَلة الصحيحة أثناء عملية التكسيّة، و(2) نموذج توليد ثنائي الخطوات: حيث يقوم نموذج التسلسل إلى التسلسل بتوليد تسلسل مختلط من الجذور (الليما) والعلامات النحوية، والتي تُستَفْعَل لاحقًا بواسطة مُولِّد نحوي.

الترميز العصبي لإنتاج النصوص باللغة التشيكية: البيانات والأساسيات | أحدث الأوراق البحثية | HyperAI