منذ 3 أشهر

الملخص

لقد أظهرت وظيفة التضمين الموضعية الدوارة (RoPE) في نماذج المُحَوِّل (Transformer) قيودًا جوهرية تُضعف قدرة التمديد الطولي. نعيد تفسير خريطة الانتباه المُشَمَّلة بترميز مكاني على أنها خريطة ميزات مُتَعَرِّضَة للضوضاء، ونُقدِّم ترميزًا مكانيًا مُزَوَّدًا بخاصية إزالة الضوضاء (DoPE)، وهو أسلوب لا يتطلب تدريبًا يعتمد على الانتروبيا المصفوفية المُقَصَّرَة لاكتشاف نطاقات ترددية شاذة في خريطة الميزات. وباستغلال خصائص الضوضاء في خريطة الميزات، نُعيد برمجة هذه الخريطة باستخدام توزيع جاوسية خالٍ من المعلمات، مما يُمكِّن من التمديد المُستَقِر. تُبيِّن نتائجنا النظرية السبب الكامن وراء ظاهرة "الانجذاب الانتباهي" (attention sink) وعلاقتها بانتروبيا المصفوفة المُقَصَّرَة. أظهرت التجارب على مهام "الإNeedle-in-a-haystack" و"التعلم السياقي بكميات متعددة" (many-shot in-context learning) أن DoPE يُحسِّن بشكل ملحوظ دقة الاسترجاع واستقرار التفكير في السياقات الممتدة (حتى 64K رمزًا). تُظهر النتائج أن استراتيجية إزالة الضوضاء في ترميزات الموضع تُخفِّف بشكل فعّال من ظاهرة الانجذاب الانتباهي، وتعيد استقرار أنماط الانتباه، مما يقدِّم حلًّا بسيطًا ولكن قويًّا لتحسين التعميم الطولي. صفحة المشروع: https://The-physical-picture-of-LLMs.github.io

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار