HyperAIHyperAI
منذ 11 أيام

تعلم تشفير الموضع لمحول باستخدام نموذج ديناميكي مستمر

Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh
تعلم تشفير الموضع لمحول باستخدام نموذج ديناميكي مستمر
الملخص

نقدّم طريقة جديدة لتعلم ترميز معلومات الموقع في النماذج غير التكرارية، مثل نماذج الترانسفورمر. على عكس النماذج ذات التكرار (RNN) والذكاء الاصطناعي التكراري (LSTM)، التي تحتوي على انحياز استنتاجي من خلال معالجة الرموز المدخلة تسلسليًا، فإن النماذج غير التكرارية أقل حساسية تجاه الموقع. السبب الرئيسي هو أن المعلومات المتعلقة بالموقع بين الوحدات المدخلة لا يتم ترميزها بشكل طبيعي، أي أن النماذج تكون متساوية بالنسبة للتباديل؛ وهذا يفسر سبب احتواء جميع النماذج الحالية على طبقة ترميز جيبي/ترميز موقع عند المدخلات. ومع ذلك، فإن هذا الحل يمتلك قيودًا واضحة: إذ أن الترميز الجيبي ليس كافيًا في المرونة نظرًا لأنه مصمم يدويًا ولا يحتوي على أي معلمات قابلة للتعلم، في حين أن الترميز الموقعي يقيد الطول الأقصى للسلاسل المدخلة. لذا، يُعد من الضروري تصميم طبقة موقع جديدة تحتوي على معلمات قابلة للتعلم، لتتكيف مع مجموعات بيانات مختلفة ومعماريات مختلفة. في الوقت نفسه، نرغب أيضًا في أن تتمكن الترميزات من التمديد (الاستقراء) وفقًا لتغير طول المدخلات. في الحل المقترح، نستلهم من المنهجية الحديثة المعروفة بـ "المعادلات التفاضلية العصبية" (Neural ODE)، التي يمكن اعتبارها نسخة مستمرة متنوعة لنموذج ResNet. ويتميز هذا النموذج بقدرته على نمذجة العديد من أنواع الأنظمة الديناميكية. ونُمذّل تطور النتائج المُرمَّزة وفقًا لمؤشر الموقع باستخدام هذا النظام الديناميكي، مما يسمح بالتغلب على القيود المذكورة سابقًا في الأساليب الحالية. وقد قُمنا بتقييم طبقات الموقع الجديدة في مجموعة متنوعة من مهام الترجمة الآلية والفهم اللغوي، وأظهرت النتائج التجريبية تحسينات مستمرة مقارنة بالأساليب الأساسية.

تعلم تشفير الموضع لمحول باستخدام نموذج ديناميكي مستمر | أحدث الأوراق البحثية | HyperAI