HyperAIHyperAI
منذ 11 أيام

LATTE: تشفير لاتيسي مُوجَّه بالانتباه للتقسيم الكلمي القائم على الحروف

{Manabu Okumura, Kotaro Funakoshi, Hidetaka Kamigaito, Thodsaporn Chay-intr}
LATTE: تشفير لاتيسي مُوجَّه بالانتباه للتقسيم الكلمي القائم على الحروف
الملخص

تتكوّن последمة الأحرف من واحدة أو أكثر من خيارات التجزئة. ويمكن اعتبار هذا ظاهرة عدم اليقين في التجزئة، والتي قد تضعف أداء التجزئة الكلمية. ويعمل التعامل السليم مع هذا عدم اليقين على تقليل القرارات الغامضة بشأن حدود الكلمات. وقد حققت الدراسات السابقة أداءً متميزًا في التجزئة، وخففت من مشكلة عدم اليقين من خلال دمج هيكل الشبكة (lattice)، وذلك بفضل قدرته على التقاط خيارات التجزئة المختلفة، إلى جانب النماذج القائمة على الرسوم البيانية والنموذج المُدرّب مسبقًا. ومع ذلك، قد لا يتم استغلال المعلومات متعددة الحُدود (multi-granularity) المُشتملة على الحروف والكلمات في الشبكة التي يتم ترميزها باستخدام هذه النماذج بشكل كافٍ. ولتعزيز التمثيلات متعددة الحُدود في الشبكة، نقترح طريقة تُسمّى "الترميز المُنتبه للشبكة" (Lattice ATTentive Encoding - LATTE) للتجزئة الكلمية القائمة على الحروف. تعتمد نموذجنا على هيكل الشبكة لمعالجة خيارات التجزئة، ويستخدم الشبكات العصبية الرسومية مع آلية الانتباه لاستخراج تمثيلات متعددة الحُدود من الشبكة بشكل مُنتبِه، بهدف تكميل التمثيلات الحرفية. وقد أظهرت النتائج التجريبية تحسنًا في أداء التجزئة على مجموعات البيانات BCCWJ وCTB6 وBEST2010 بثلاث لغات، وبشكل خاص في اللغة اليابانية والصينية والتايلاندية.

LATTE: تشفير لاتيسي مُوجَّه بالانتباه للتقسيم الكلمي القائم على الحروف | أحدث الأوراق البحثية | HyperAI