HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 9 أيام

DoPE: تضمين الموضع الدوراني لتنقية الضوضاء

Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

DoPE: تضمين الموضع الدوراني لتنقية الضوضاء

الملخص

لقد أظهرت وظيفة التضمين الموضعية الدوارة (RoPE) في نماذج المُحَوِّل (Transformer) قيودًا جوهرية تُضعف قدرة التمديد الطولي. نعيد تفسير خريطة الانتباه المُشَمَّلة بترميز مكاني على أنها خريطة ميزات مُتَعَرِّضَة للضوضاء، ونُقدِّم ترميزًا مكانيًا مُزَوَّدًا بخاصية إزالة الضوضاء (DoPE)، وهو أسلوب لا يتطلب تدريبًا يعتمد على الانتروبيا المصفوفية المُقَصَّرَة لاكتشاف نطاقات ترددية شاذة في خريطة الميزات. وباستغلال خصائص الضوضاء في خريطة الميزات، نُعيد برمجة هذه الخريطة باستخدام توزيع جاوسية خالٍ من المعلمات، مما يُمكِّن من التمديد المُستَقِر. تُبيِّن نتائجنا النظرية السبب الكامن وراء ظاهرة "الانجذاب الانتباهي" (attention sink) وعلاقتها بانتروبيا المصفوفة المُقَصَّرَة. أظهرت التجارب على مهام "الإNeedle-in-a-haystack" و"التعلم السياقي بكميات متعددة" (many-shot in-context learning) أن DoPE يُحسِّن بشكل ملحوظ دقة الاسترجاع واستقرار التفكير في السياقات الممتدة (حتى 64K رمزًا). تُظهر النتائج أن استراتيجية إزالة الضوضاء في ترميزات الموضع تُخفِّف بشكل فعّال من ظاهرة الانجذاب الانتباهي، وتعيد استقرار أنماط الانتباه، مما يقدِّم حلًّا بسيطًا ولكن قويًّا لتحسين التعميم الطولي. صفحة المشروع: https://The-physical-picture-of-LLMs.github.io

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DoPE: تضمين الموضع الدوراني لتنقية الضوضاء | الأوراق البحثية | HyperAI