Command Palette
Search for a command to run...
كل شيء مترابط: رحلة عبر التذكّر في وقت الاختبار، والانحياز الانتباهي، والاحتفاظ، والتحسين عبر الإنترنت
كل شيء مترابط: رحلة عبر التذكّر في وقت الاختبار، والانحياز الانتباهي، والاحتفاظ، والتحسين عبر الإنترنت
Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni
الملخص
يُعدّ تصميم هياكل معمارية فعّالة وناجعة من الركائز الأساسية في الجهود البحثية الرامية إلى تعزيز قدرات النماذج الأساسية. مستلهمين من الظاهرة الإدراكية البشرية المعروفة بانحياز الانتباه – أي الميل الطبيعي لتقديم أولوية لبعض الأحداث أو المحفزات – نعيد تصور الهياكل العصبية، بما في ذلك نماذج التحول (Transformers) ونماذج تايتان (Titans) والشبكات العصبية التكرارية الخطية الحديثة، باعتبارها وحدات ذاكرة ارتباطية تتعلم تطابقًا بين المفاتيح (keys) والقيم (values) باستخدام دالة هدف داخلي، يُشار إليه بانحياز الانتباه. وفاجأنا اكتشافنا أن معظم النماذج التسلسلية الحالية تعتمد إما (1) مقياس التشابه الناتج عن الضرب القياسي (dot-product similarity)، أو (2) دالة تRegression L2 كمصدر لانحياز الانتباه. ونذهب أبعد من هاتين الدالتين، ونقدّم مجموعة من التكوينات البديلة لانحياز الانتباه، إلى جانب تقريبات فعّالة تُسهم في تثبيت عملية التدريب. ثم نعيد تفسير آليات النسيان في الهياكل العميقة الحديثة في عالم التعلم العميق باعتبارها شكلًا من أشكال الت régularization للحفظ، ما يُمكّن من اقتراح مجموعة جديدة من "البوابات النسيانية" (forget gates) لتطبيقات النماذج التسلسلية. مبنيةً على هذه الرؤى، نقدّم "ميرانس" (Miras)، وهي إطار عام لتصميم هياكل التعلم العميق، يعتمد على أربع خيارات رئيسية: (أ) هيكل الذاكرة الارتباطية، (ب) دالة هدف انحياز الانتباه، (ج) البوابة الحافظة (retention gate)، (د) خوارزمية تعلّم الذاكرة. ونُقدّم ثلاث نماذج تسلسلية جديدة: "مونيتا" (Moneta)، و"يااد" (Yaad)، و"ميمورا" (Memora)، التي تتجاوز قدرة النماذج التكرارية الخطية الحالية مع الحفاظ على عملية تدريب سريعة قابلة للتوازي. وتُظهر تجاربنا أن الاختيارات المختلفة في إطار ميرانس تؤدي إلى نماذج تتمتع بمواهب مختلفة. على سبيل المثال، تحقق بعض النماذج المستندة إلى ميرانس أداءً استثنائيًا في مهام متخصصة مثل نمذجة اللغة، والاستدلال المشترك، والمهام التي تتطلب استرجاعًا كثيفًا، حتى تتفوق على نماذج التحول (Transformers) والأنماط التكرارية الحديثة الأخرى.