Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

الملخص
على مدار العقود الماضية، كان تطوير هياكل عصبية أكثر قوة، وتصميم خوارزميات تحسين بالتوازي لتدريبها بكفاءة، محورًا رئيسيًا في الجهود البحثية الرامية إلى تعزيز قدرات نماذج التعلم الآلي. وعلى الرغم من التقدم الأخير، لا سيما في تطوير نماذج اللغة (LMs)، تظل هناك تحديات جوهرية وأسئلة غير مُجابة حول كيفية قدرة هذه النماذج على التعلم المستمر أو التذكّر، والتحسين الذاتي، وعثورها على "حلول فعّالة". في هذا البحث، نقدّم نموذجًا تعلّميًا جديدًا يُسمّى التعلّم المُتداخل (Nested Learning - NL)، الذي يُمثّل النموذج كمجموعة من المسائل المُتداخلة، متعددة المستويات، و/أو المتوازية، حيث يمتلك كلّ منها "تدفق سياقي" خاص به. يُبيّن NL أن الطرق الحالية للتعلم العميق تتعلم من البيانات من خلال ضغط تدفق السياق الخاص بها، ويشرح كيف ينشأ التعلّم في السياق (in-context learning) في النماذج الكبيرة. كما يُشير NL إلى طريق جديد (بُعدٌ جديد في التعلم العميق) لتصميم خوارزميات تعلّم أكثر تعبيرًا، وبمستويات أكثر، مما يؤدي إلى قدرات تعلّم متقدمة في السياق. وبالإضافة إلى طبيعته المتميزة من حيث التبرير العصبي والوضوح الرياضي (white-box)، نُقدّم ثلاث إسهامات أساسية تُبرر أهميته: (1) مُحسّنات عميقة: بناءً على NL، نُظهر أن مُحسّنات التدرج الشهيرة (مثل Adam، وSGD مع التذكّر، وغيرها) هي في الواقع وحدات ذاكرة ارتباطية (associative memory) تهدف إلى ضغط التدرجات باستخدام خوارزمية التدرج الهابط. واستنادًا إلى هذه الرؤية، نقدّم مجموعة من المُحسّنات الأكثر تعبيرًا، والتي تمتلك ذاكرة عميقة و/أو قواعد تعلّم أكثر قوة؛ (2) العمالقة المُعدّلة ذاتيًا: باستغلال رؤى NL حول خوارزميات التعلّم، نقدّم نموذجًا تسلسليًا جديدًا يتعلّم كيفية تعديل ذاته من خلال تعلّم خوارزمية التحديث الخاصة به؛ (3) نظام ذاكرة مستمر: نقدّم صيغة جديدة لنظام الذاكرة، تعمّم النظرة التقليدية التي تُميّز بين "الذاكرة طويلة المدى/قصيرة المدى". وبدمج نموذجنا التسلسلي المُعدّل ذاتيًا مع نظام الذاكرة المستمر، نقدّم وحدة تعلّم تُسمّى HoPE، وقد أظهرت نتائج واعدة في مهام نمذجة اللغة، والتعلّم المستمر، والاستدلال في السياقات الطويلة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.