Command Palette
Search for a command to run...
أُعلن عن جوائز NeurIPS لأفضل ورقة بحثية لعام ٢٠٢٥! وقد اختير مشروع بحثي مشترك بين فريق كوين وجامعة تسينغهوا وجامعة ستانفورد وجهات أخرى.

تم منح جائزة NeurIPS 2025 لأفضل ورقة بحثية وجائزة الوصيف لـ 7 أوراق بحثية رائدة، بما في ذلك 4 أفضل أوراق بحثية (واحدة منها من مجموعة البيانات ونطاق المعايير) و 3 أوراق بحثية من الوصيف.
تسلط هذه الأوراق السبع الضوء على أحدث التطورات في نظرية نموذج الانتشار، والتعلم التعزيزي الخاضع للإشراف الذاتي، وآليات الانتباه في نماذج اللغة الكبيرة، وقدرات التفكير في نماذج اللغة، ونظرية التعلم عبر الإنترنت، وقوانين التوسع العصبي، وطرق المقارنة لتنوع نماذج اللغة.
أفضل 4 أوراق بحثية
1. التعهيد الجماعي للذكاء الاصطناعي: التجانس المفتوح لنماذج اللغة (وامتداداتها)
العنوان: العقل الخلوي الاصطناعي: التجانس المفتوح لنماذج اللغة (وما بعده)
* فريق البحث:جامعة واشنطن، جامعة كارنيجي ميلون، معهد ألين للذكاء الاصطناعي، شركة ليلا ساينسز، جامعة ستانفورد
* خلاصة:غالبًا ما تواجه نماذج اللغة الكبيرة صعوبة في توليد محتوى إبداعي متنوع شبيه بالمحتوى البشري، مما يثير مخاوف بشأن تجانس الفكر البشري على المدى الطويل نتيجةً للتعرض المتكرر لمخرجات متشابهة. ومع ذلك، لا تزال الأساليب الحالية القابلة للتطوير لتقييم تنوع مخرجات نماذج اللغة محدودة، خاصةً خارج نطاق المهام المحدودة مثل توليد الأرقام أو الأسماء العشوائية، أو ما يتجاوز أخذ العينات المتكررة من نموذج واحد.
لمعالجة هذا النقص، نُقدّم Infinity-Chat، وهي قاعدة بيانات ضخمة تحتوي على 26,000 استعلام مستخدم متنوع وواقعي ومفتوح، تتيح إجابات متعددة معقولة بدلاً من "إجابة صحيحة" واحدة. كما نُقدّم، لأول مرة، نظام تصنيف شامل لوصف جميع الأسئلة المفتوحة المُقدّمة لنموذج لغوي، يتألف من ست فئات عليا (مثل: توليد المحتوى الإبداعي، والعصف الذهني، وتوليد الأفكار)، وكل منها مُقسّم إلى 17 فئة فرعية.
أجرينا دراسة واسعة النطاق حول انهيار الأنماط في نماذج اللغة (LMs) باستخدام منصة Infinity-Chat، وكشفنا عن تأثير "عقلية الخلية الاصطناعية" الكبير في توليد نماذج اللغة المفتوحة. يتجلى هذا التأثير في: (1) التكرار داخل النموذج، أي أن النماذج الفردية تولد استجابات متشابهة باستمرار؛ و(2) التجانس بين النماذج، أي أن النماذج المختلفة تنتج مخرجات متشابهة بشكل لافت للنظر. تتضمن منصة Infinity-Chat أيضًا 31250 تعليقًا بشريًا، تغطي التقييمات المطلقة والتفضيلات الزوجية، مع 25 تعليقًا بشريًا مستقلًا لكل مثال. مكّننا هذا من دراسة التفضيلات البشرية الجماعية والفردية للاستعلامات المفتوحة. تشير نتائجنا إلى أنه على الرغم من الحفاظ على جودة إجمالية كبيرة، فقد أظهرت نماذج اللغة الحديثة ونماذج المكافآت ومقيّمو نماذج اللغة تطابقًا منخفضًا مع التقييمات البشرية لتوليد النموذج الذي أثار تفضيلات شخصية من مختلف المعلقين. بشكل عام، يوفر INFINITY-CHAT أول مورد واسع النطاق لدراسة الاستعلامات المفتوحة بشكل منهجي على نماذج اللغة في العالم الحقيقي، وكشف رؤى رئيسية لتوجيه الأبحاث المستقبلية وتخفيف مخاطر السلامة طويلة الأمد للذكاء الاصطناعي التي تفرضها عقلية قطيع الذكاء الاصطناعي.
* رابط الورقة:https://go.hyper.ai/DZga5
2. تطبيق آليات الانتباه المُبوّب في نماذج اللغة واسعة النطاق: اللاخطية، والتشتت، والتقارب الخالي من الانتباه
العنوان: الانتباه المُقيّد لنماذج اللغة الكبيرة: اللاخطية، والندرة، والخالية من مُشتت الانتباه
* فريق البحث:فريق علي بابا كوين، جامعة إدنبرة، جامعة ستانفورد، معهد ماساتشوستس للتكنولوجيا، جامعة تسينغهوا
* خلاصة:طُبّقت آليات البوابات على نطاق واسع، بدءًا من النماذج المبكرة مثل LSTM وشبكات الطرق السريعة، وصولًا إلى نماذج فضاء الحالة الأحدث، وآليات الانتباه الخطي، وآليات انتباه سوفت ماكس. ومع ذلك، نادرًا ما تدرس الدراسات المنشورة الآثار المحددة لآليات البوابات. تبحث هذه الورقة البحثية بشكل منهجي في متغيرات آلية انتباه سوفت ماكس المعززة بالبوابات من خلال سلسلة من التجارب الشاملة. على وجه التحديد، نقارن بشكل شامل 30 متغيرًا، بما في ذلك 15 مليار نموذج خبير هجين (MoE) و1.7 مليار نموذج كثيف، جميعها مُدربة على مجموعة بيانات تضم 3.5 تريليون رمز. تتمثل النتيجة الرئيسية التي توصلنا إليها في أن تحسينًا بسيطًا - بتطبيق بوابة سيجمويد خاصة بالرأس بعد انتباه المنتج النقطي المُقاس (SDPA) - يمكن أن يُحسّن أداء النموذج باستمرار. علاوة على ذلك، يُعزز هذا التحسين استقرار التدريب، ويزيد من تحمل النموذج لمعدلات التعلم، ويُحسّن قابلية توسعه. بمقارنة مواقع البوابات المختلفة والمتغيرات الحسابية، نعزو هذه الفعالية إلى عاملين رئيسيين: (1) إدخال اللاخطية في تعيين الرتبة المنخفضة لآلية انتباه سوفت ماكس، و(2) تطبيق درجات بوابات متفرقة ذات صلة بالاستعلام لتعديل مخرجات SDPA. ومن الجدير بالذكر أننا وجدنا أن آلية البوابات المتفرقة هذه تخفف من عمليات التنشيط واسعة النطاق وفخاخ الانتباه، وتُحسّن أداء استقراء السياق الطويل. كما ننشر الكود والنموذج ذي الصلة لتسهيل الأبحاث المستقبلية. علاوة على ذلك، طُبقت بوابات مخرجات SDPA الأكثر كفاءة على نموذج Qwen3-Next.
* عنوان الورقة:https://go.hyper.ai/iBANK
* عنوان جيثب:https://github.com/qiuzh20/gated_attention
3. تطبيق الشبكات متعددة الطبقات في التعلم التعزيزي الخاضع للإشراف الذاتي: يمكن للتوسع العميق أن يمنح الأهداف الجديدة القدرة على تحقيقها.
شبكات مكونة من 1000 طبقة للتعلم التعزيزي الذاتي الإشراف: يمكن أن يتيح توسيع العمق إمكانيات جديدة لتحقيق الأهداف
* فريق البحث:جامعة برينستون، جامعة وارسو للتكنولوجيا
* خلاصة:في حين حقق التعلم الذاتي تقدمًا رائدًا في التطبيقات واسعة النطاق للغة والرؤية، إلا أن تطورات مماثلة كانت نادرة في التعلم التعزيزي. تبحث هذه الورقة البحثية في أساسيات التعلم التعزيزي الذاتي الإشراف التي تُحسّن قابلية التوسع بشكل كبير، مع كون عمق الشبكة عاملًا رئيسيًا. تعتمد معظم أوراق التعلم التعزيزي الحديثة على هياكل سطحية (حوالي 2-5 طبقات)، لكننا نُبيّن أن زيادة العمق إلى 1024 طبقة يُحسّن الأداء بشكل كبير. تُجرى تجاربنا في بيئة غير خاضعة للإشراف لتكييف الهدف، دون أي عروض توضيحية أو مكافآت، مما يتطلب من العميل استكشاف كيفية تعظيم احتمالية تحقيق الهدف والتعلم منها من الصفر. تُظهر التقييمات على مهام محاكاة الحركة والتلاعب أن طريقتنا تُحقق تحسنًا في الأداء يُعادل ± أضعاف خوارزميات التعلم التعزيزي المقارن ذاتية الإشراف، متفوقةً بذلك على أساليب خط الأساس الأخرى لتكييف الهدف. لا تُحسّن زيادة عمق النموذج معدل النجاح فحسب، بل تُغير السلوك المُكتسب بشكل جذري أيضًا.
* عنوان الورقة:https://go.hyper.ai/HR0Hx
4. لماذا لا تعتمد نماذج الانتشار على الحفظ عن ظهر قلب: دور التنظيم الديناميكي الضمني في التدريب.
لماذا لا تحفظ نماذج الانتشار: دور التنظيم الديناميكي الضمني في التدريب
* فريق البحث:جامعة باريس للعلوم ولافاييت (جامعة PSL) وجامعة بوكوني
* نشر الملخص:حقق النموذج نجاحًا كبيرًا في مختلف المهام التوليدية. يكمن التحدي الرئيسي في فهم الآليات التي يتجنب بها حفظ بيانات التدريب ويحقق التعميم. تستكشف هذه الدراسة دور ديناميكيات التدريب في الانتقال من التعميم إلى الحفظ. من خلال تجارب مكثفة وتحليلات نظرية، حددنا نطاقين زمنيين متميزين: مرحلة مبكرة حيث يبدأ النموذج بتوليد عينات عالية الجودة، ومرحلة لاحقة حيث يحدث الحفظ. تتمثل إحدى النتائج الرئيسية في أن المرحلة المبكرة تنمو خطيًا مع حجم مجموعة التدريب، بينما تظل المرحلة اللاحقة ثابتة. يشكل هذا نافذة مقاربة لوقت التدريب - حيث يعمم النموذج بفعالية، ولكن يحدث الحفظ القوي إذا استمر التدريب في المراحل اللاحقة. يختفي الإفراط في التجهيز فقط مع وقت تدريب لا نهائي عندما يتجاوز هذا النطاق الزمني عتبة خاصة بالنموذج. تكشف هذه النتائج عن آلية تنظيم ديناميكية ضمنية في ديناميكيات التدريب تتجنب الحفظ حتى في ظل إعدادات مفرطة المعلمات. تم التحقق من صحة استنتاجاتنا من خلال التجارب العددية على مجموعات البيانات الحقيقية والاصطناعية باستخدام بنية U-Net القياسية وبدعم من التحليل النظري لنماذج الميزات العشوائية القابلة للتطبيق في حدود عالية الأبعاد.
* عنوان الورقة:https://go.hyper.ai/UloDv
المتسابق الثاني في السباق
1. هل يمكن للتعلم المعزز أن يحفز نماذج التعلم المنطقي حقًا على تحسين قدراتها الاستدلالية بما يتجاوز النموذج الأساسي؟
العنوان: هل يعزز التعلم التعزيزي حقًا القدرة على التفكير المنطقي لدى طلاب الماجستير في القانون بما يتجاوز النموذج الأساسي؟
* فريق:مختبر LeapLab التابع لجامعة تسينغهوا، جامعة شنغهاي جياو تونغ
* خلاصة:في السنوات الأخيرة، حقق التعلم التعزيزي القائم على المكافآت القابلة للتحقق (RLVR) نتائج ملحوظة في تحسين أداء نماذج اللغات الكبيرة (LLMs) في التفكير المنطقي، وخاصةً في المهام الرياضية والبرمجية. يُعتقد عمومًا أنه، على غرار الطريقة التي يساعد بها التعلم التعزيزي التقليدي الوكلاء على استكشاف وتعلم استراتيجيات جديدة، يُمكّن التعلم التعزيزي نماذج اللغات الكبيرة من تطوير نفسها باستمرار، وبالتالي اكتساب قدرات تفكير منطقي جديدة تتجاوز قدرات النماذج الأساسية. تستكشف هذه الدراسة بشكل منهجي حدود قدرات التفكير المنطقي لنماذج اللغات الكبيرة المُدربة على التعلم التعزيزي عبر عائلات نماذج مختلفة، وخوارزميات التعلم التعزيزي، ومعايير التفكير الرياضي/البرمجي/البصري، وتقدم تحليلًا متعمقًا للوضع الحالي لنماذج اللغات الكبيرة.
نستخدم مقياس pass@k لقيم k الكبيرة كمقياس للتقييم. يكشف بحثنا أنه بينما يُحسّن RLVR كفاءة أخذ العينات للمسارات الصحيحة، إلا أن أساليب التدريب الحالية، على نحوٍ مُفاجئ، لا تُولّد أنماط استدلال جديدة جوهريًا. نلاحظ أنه بينما تتفوق النماذج المُدرّبة على RLVR على نماذجها الأساسية عند قيم أصغر (مثلًا، =1)، فإن النموذج الأساسي يُحقق درجة pass@k أعلى عند القيم الأكبر. علاوةً على ذلك، نلاحظ أن حدود قدرة الاستدلال لـ LLMs تتقلص عادةً مع تقدم تدريب RLVR. تشير تحليلات التغطية والحيرة الإضافية إلى أن مسارات الاستدلال التي تُولّدها نماذج RLVR مُضمنة بالفعل ضمن توزيع أخذ العينات للنموذج الأساسي، مما يُشير إلى أن قدرات الاستدلال الخاصة بها مُشتقة من النموذج الأساسي ومحدودة به. من هذا المنظور، وباعتبار النموذج الأساسي الحد الأعلى، يُظهر تحليلنا الكمي أن أداء خوارزميات RLVR الست الشائعة مُتشابه، ولكنه بعيد كل البعد عن الوصول إلى المستوى الأمثل للاستفادة الكاملة من إمكانات النموذج الأساسي.
في المقابل، نجد أن عملية التقطير يمكن أن تُدخل أنماط تفكير جديدة من نموذج المعلم، وتُوسّع قدراته الاستدلالية بشكل كبير. باختصار، تُظهر نتائجنا أن أساليب التعلم القائم على الواقع (RLVR) الحالية لم تُدرك تمامًا إمكانات التعلم المُعزَّز في إلهام قدرات تفكير جديدة تمامًا في طلاب الماجستير في القانون. وهذا يُبرز الحاجة إلى تحسين نماذج التعلم المُعزَّز، مثل التوسع المستمر وتفاعلات الوكيل والبيئة متعددة الأدوار، لإطلاق هذه الإمكانات.
* عنوان الورقة:https://go.hyper.ai/fwkSX
2. تحديد الخطأ الأمثل للتعلم المباشر عبر الإنترنت
العنوان: حدود الأخطاء المثلى للتعلم الاستقرائي عبر الإنترنت
* فريق:جامعة ولاية كينت، جامعة بيردو، أبحاث جوجل، معهد ماساتشوستس للتكنولوجيا
* ملخص:نتناول سؤالاً مفتوحاً عمره 30 عاماً يتعلق بدور البيانات غير المُصنَّفة في التعلّم عبر الإنترنت. ونقوم بذلك من خلال تحديد الفجوة بدقة بين التعلّم الاستقرائي والتعلّم الاستقرائي التقليدي. ونُبيّن أنه لكل فئة مفاهيم ليتلستون ذات البعد n، يكون حد الخطأ الاستقرائي n على الأقل. ويُمثّل هذا تحسّناً أُسياً مقارنةً بالحدود الدنيا السابقة n<sub>1</sub> وn<sub>2</sub> وn<sub>3</sub> التي وضعها بن-دافيد وكوشيليفيتز ومنصور (1995، 1997) وهانيكي وموران وشافر (2023)، على التوالي. كما نُبيّن أن حدنا ضيق: لكل n، توجد فئة مفاهيم ليتلستون ذات البعد n بحد خطأ استقرائي n<sub>1</sub>. ويُحسّن حدنا الأعلى أيضاً أفضل حد أعلى معروف سابقاً وضعه بن-دافيد وآخرون (1997). تُظهر هذه النتائج فجوةً تربيعيةً بين التعلم الاستقرائي والتعلم التقليدي عبر الإنترنت، مما يُبرز مزايا الوصول المُبكر إلى تسلسلات من الحالات غير المُسمّاة. ويتناقض هذا بشكلٍ حادٍّ مع بيئة PAC، حيث يُظهر التعلم الاستقرائي والتعلم التقليدي تعقيدًا مُتشابهًا في العينة.
* عنوان الورقة:https://go.hyper.ai/00rHz
3. يوفر هيكل التراكب قابلية التوسع القوية للشبكات العصبية.
العنوان: التراكب يُنتج توسعًا عصبيًا قويًا
* فريق:معهد ماساتشوستس للتكنولوجيا
* ملخص:يعتمد نجاح نماذج اللغات الكبيرة (LLMs) اليوم على ملاحظة أن النماذج الأكبر تعمل بشكل أفضل. ومع ذلك، لا يزال أصل قانون التدرج العصبي هذا، حيث يتناقص الفقدان بشكل قانوني مع حجم النموذج، غير واضح. نقترح أن تكديس التمثيل (أي أن عدد السمات التي يمثلها LLM يتجاوز أبعاده) قد يكون عاملاً رئيسيًا في الفقدان ويؤدي إلى التدرج العصبي. استنادًا إلى نموذج لعبة من Anthropic، نبحث بشكل منهجي في كيفية قياس الفقدان مع حجم النموذج من خلال التحكم في درجة التكديس باستخدام تحلل الوزن. عندما يكون التكديس ضعيفًا، يتبع الفقدان قانون الأس فقط إذا كان تردد سمات البيانات يتبع توزيع قانون الأس. وعلى العكس من ذلك، في حالة التكديس القوي، يكون الفقدان عادةً متناسبًا عكسيًا مع أبعاد النموذج على توزيع تردد واسع بسبب التداخل الهندسي بين متجهات التمثيل. نُبيّن أن نماذج LLM مفتوحة المصدر العاملة في ظلّ تكديس قوي تُظهر علاقة عكسية بين الخسارة وأبعاد النموذج، وأن قانون شينشيلا للقياس يتوافق مع ذلك. تُشير نتائجنا إلى أن تكديس التمثيل هو مُحرّك أساسي للقياس العصبي، مما يُقدّم رؤىً حول أسئلة مثل متى يُمكن تحسين القياس العصبي ومتى يفشل.
* عنوان الورقة:https://go.hyper.ai/AyLWt
إذا كنت تريد معرفة المزيد عن أوراق الذكاء الاصطناعي المتطورة،
مرحباً بكم في:https://hyper.ai/papers








