Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

الملخص
لقد أظهرت وظيفة التضمين الموضعية الدوارة (RoPE) في نماذج المُحَوِّل (Transformer) قيودًا جوهرية تُضعف قدرة التمديد الطولي. نعيد تفسير خريطة الانتباه المُشَمَّلة بترميز مكاني على أنها خريطة ميزات مُتَعَرِّضَة للضوضاء، ونُقدِّم ترميزًا مكانيًا مُزَوَّدًا بخاصية إزالة الضوضاء (DoPE)، وهو أسلوب لا يتطلب تدريبًا يعتمد على الانتروبيا المصفوفية المُقَصَّرَة لاكتشاف نطاقات ترددية شاذة في خريطة الميزات. وباستغلال خصائص الضوضاء في خريطة الميزات، نُعيد برمجة هذه الخريطة باستخدام توزيع جاوسية خالٍ من المعلمات، مما يُمكِّن من التمديد المُستَقِر. تُبيِّن نتائجنا النظرية السبب الكامن وراء ظاهرة "الانجذاب الانتباهي" (attention sink) وعلاقتها بانتروبيا المصفوفة المُقَصَّرَة. أظهرت التجارب على مهام "الإNeedle-in-a-haystack" و"التعلم السياقي بكميات متعددة" (many-shot in-context learning) أن DoPE يُحسِّن بشكل ملحوظ دقة الاسترجاع واستقرار التفكير في السياقات الممتدة (حتى 64K رمزًا). تُظهر النتائج أن استراتيجية إزالة الضوضاء في ترميزات الموضع تُخفِّف بشكل فعّال من ظاهرة الانجذاب الانتباهي، وتعيد استقرار أنماط الانتباه، مما يقدِّم حلًّا بسيطًا ولكن قويًّا لتحسين التعميم الطولي. صفحة المشروع: https://The-physical-picture-of-LLMs.github.io
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.