HyperAIHyperAI

Command Palette

Search for a command to run...

ورشة عمل مكثفة في NeurIPS 2025: كيف تُحدث "الصمامات الانتباهية" ثورة بسيطة في تدريب نماذج الذكاء الاصطناعي الكبرى

انطلقت نسخة 2025 من مؤتمر NeurIPS، أبرز مؤتمرات الذكاء الاصطناعي عالميًا، في مركز معارض سان دييغو ب كاليفورنيا من 30 نوفمبر إلى 7 ديسمبر، وسط حضور مهول وصل إلى 21,575 مقالًا مُقدَّمًا — بزيادة 75% مقارنة بعام 2023. وسط تزايد حماسة صناعة الذكاء الاصطناعي، برزت مسارات بحثية جديدة، خصوصًا في مجال التعلم التكاملي (Reinforcement Learning)، مع تركيز صناعي قوي على جوجل وDeepMind، التي عرضت مبادرات مبتكرة في التعلم المستمر والتعلم المُتداخل، بعيدًا عن مجرد تكبير النماذج. في قلب المؤتمر، تم تكريم بحث من فريق Qwen بجائزة أفضل مقال، بعنوان: "الانتباه المُشَغِّل في النماذج اللغوية الكبيرة: غير خطية، نادرة، وبدون "مُحَوِّل انتباه" (Attention Sink)". هذا البحث يقدم دراسة معمقة لظاهرة تُعرف بـ"الانتباه المُشَغِّل" — وهي تقنية بسيطة لكنها قوية، تُطبَّق عبر إدخال وحدة تحكم (Gate) بعد عملية الانتباه في طبقة الترانسفورمر، باستخدام دالة سيجمويد أو سي لو (SiLU) لضبط تدفق المعلومات. أظهر البحث أن وضع هذه الوحدة مباشرة بعد حساب الانتباه (SDPA) — ما يُعرف بـ G1 — هو الأكثر فعالية، إذ يُضيف غير خطية، ويُعزز الندرة (Sparsity) في التفاعلات، ويقلل بشكل كبير من ظاهرة "الانتباه المُشَغِّل"، حيث يُركز كل الانتباه على أول عنصر في التسلسل، مما يؤدي إلى تضخم في التفاعلات وتشتت في التدريب. بفضل هذه الوحدة، أصبحت النماذج أكثر استقرارًا رقميًا، مما يسمح باستخدام معدلات تعلم أعلى دون انفصال التدريب، ويُحسّن التوسع عند زيادة طول السياق. من أبرز النتائج: يمكن تمديد طول السياق إلى 32 ألف أو حتى 128 ألف كلمة دون إعادة تدريب كامل، عبر تعديل "مُضاعف الدوران الموضعية" (RoPE)، باستخدام تقنية YaRN التي تمتد الترددات بشكل سلس. وقد أظهرت النماذج المُشَغِّلة بـ G1 أداءً أفضل بكثير من النماذج العادية في السياقات الطويلة، خصوصًا عند تطبيق YaRN، لأنها لا تعتمد على "مُحَوِّل الانتباه" لاستقرار التدريب. كما وجد الباحثون أن التحكم المضاعف (Multiplicative) أكثر فعالية من التراكمي (Additive)، وأن تخصيص مُشَغِّل منفصل لكل رأس انتباه (Head-specific) هو القرار الأهم، إذ يحافظ على التخصص الوظيفي لكل رأس ويُحسّن الأداء بشكل ملحوظ. الاستنتاج الأهم: هذه التقنية البسيطة — إدخال مُشَغِّل بسيط بعد الانتباه — تُحدث فرقًا جوهريًا في الاستقرار، التوسع، ودقة التمثيل، وتُعدّ خطوة عملية مباشرة يمكن تطبيقها في أي نموذج لغوي كبير. وقد أشادت لجنة الجوائز بعمل الفريق لتقديمه نتائج مفصلة وشفافة، رغم التوجه العام نحو إغلاق البيانات في مجال النماذج الكبيرة. هذا البحث لا يُعدّ اكتشافًا جديدًا، لكنه يُقدّم تحليلًا منهجيًا وعمليًا نادرًا، يُمكّن الباحثين والمهندسين من تحسين نماذجهم اليوم، ويُعزز فهمًا أعمق لآليات التعلم في النماذج الحديثة. ويعتبر هذا العمل نموذجًا مثاليًا للبحث المفتوح الذي يُسهم في تقدم المجال ككل.

الروابط ذات الصلة