محول التفاضل
المحول التفاضلي (Diff Transformer اختصارًا) هو بنية محول جديدة، تم اقتراحها بشكل مشترك من قبل Microsoft Research وجامعة تسينغهوا في عام 2024. نتائج الورقة البحثية ذات الصلة هي "المحول التفاضلي"، المؤلفون المشاركون الأربعة: تيانزو يي، لي دونغ، يوتشينغ شيا، يوتاو صن. يكمن جوهر هذه البنية في آلية الانتباه التفاضلي، والتي تهدف إلى حل مشكلة صعوبة استرجاع المعلومات الأساسية بدقة في المحولات التقليدية عند معالجة النصوص الطويلة، وهي ظاهرة ما يسمى بـ"فقدان المعلومات الوسيط".
يقوم Diff Transformer بحساب خريطتين مستقلتين للانتباه من SoftMax ثم يأخذ الفرق للحصول على درجة الانتباه النهائية. يمكن أن تؤدي هذه الطريقة إلى التخلص بشكل فعال من ضوضاء الانتباه ودفع النموذج إلى إيلاء المزيد من الاهتمام للأجزاء الأكثر صلة من الإدخال. تتشابه هذه الآلية مع سماعات الرأس التي تعمل على إلغاء الضوضاء ومكبرات الصوت التفاضلية في الهندسة الكهربائية، والتي تعمل على إلغاء الضوضاء باستخدام الفرق بين إشارتين.
تظهر النتائج التجريبية أن Diff Transformer يتفوق على Transformer التقليدي في مهام نمذجة اللغة في ظل إعدادات مختلفة. إنه ليس قابلاً للتطوير من حيث حجم النموذج وعدد رموز التدريب فحسب، بل يُظهر أيضًا مزايا كبيرة في التطبيقات العملية مثل النمذجة طويلة السياق، واسترجاع المعلومات الرئيسية، وتخفيف الهلوسة، والتعلم السياقي. بالإضافة إلى ذلك، يمكن لمحول Diff تقليل القيم المتطرفة في قيم تنشيط النموذج بشكل فعال، وهو أكثر ملاءمة لتقدير النموذج، ويحسن كفاءة النموذج.
يقدم تقديم Diff Transformer أفكارًا جديدة لتطوير نماذج اللغة الكبيرة، ومن المتوقع أن يلعب دورًا مهمًا في العديد من المجالات مثل أنظمة الحوار الذكية وتوليد النصوص واستخراج البيانات.