HyperAIHyperAI
منذ 8 أيام

الإنشاء التسلسلي باستخدام تمثيلات مختلطة

{Lijun Wu Shufang Xie Yingce Xia Fan Yang Tao Qin Jianhuang Lai Tie-Yan Liu}
الملخص

تُعد عملية التجزئة (Tokenization) الخطوة الأولى في العديد من مهام معالجة اللغة الطبيعية (NLP)، وتمثل دورًا مهمًا في النماذج العصبية لمعالجة اللغة الطبيعية. وقد أظهرت أساليب التجزئة مثل تشفير أزواج البايت (Byte-Pair Encoding - BPE)، التي تقلل بشكل كبير من حجم القاموس وتعالج كلمات خارج القاموس، فعالية كبيرة، وتم اعتمادها على نطاق واسع في المهام المتعلقة بإنشاء التسلسلات. وعلى الرغم من وجود عدة أساليب للتجزئة، لا يوجد اتفاق عام على أي منها هو الأفضل. في هذا العمل، نقترح الاستفادة من التمثيلات المختلطة الناتجة عن أساليب تجزئة مختلفة في مهام إنشاء التسلسلات، بهدف تعزيز أداء النموذج بفضل الخصائص والفوائد الفريدة لكل طريقة تجزئة على حدة. وبشكل محدد، نقدّم بنية نموذج جديدة تتيح دمج التمثيلات المختلطة، بالإضافة إلى خوارزمية تدريس مشترك (co-teaching) للاستفادة بشكل أفضل من التنوع بين أساليب التجزئة المختلفة. وقد حقق نهجنا تحسينات كبيرة في مهام الترجمة الآلية العصبية (NMT) على ستة أزواج لغوية (مثل الإنجليزية ↔ الألمانية، الإنجليزية ↔ الرومانية)، فضلًا عن مهمة تلخيص استنتاجي (abstractive summarization).