HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير أسبوعي عن أوراق الذكاء الاصطناعي | تقرير خاص عن أحدث الأبحاث في مجال المحولات، يحلل أحدث التطورات في التباعد الهيكلي وآليات الذاكرة وتنظيم الاستدلال.

Featured Image

على مدى السنوات الثماني الماضية، أعاد نموذج Transformer تشكيل المشهد البحثي للذكاء الاصطناعي بشكل جذري. فمنذ أن اقترحت جوجل هذا النموذج في بحثها "الانتباه هو كل ما تحتاجه" عام 2017، تطورت "آلية الانتباه" تدريجيًا من مجرد تقنية هندسية إلى نموذج عام للتعلم العميق، بدءًا من معالجة اللغة الطبيعية وصولًا إلى رؤية الحاسوب، ومن الحوسبة الكلامية ومتعددة الوسائط إلى الحوسبة العلمية، ليصبح Transformer الإطار النموذجي الأساسي الفعلي.

يسعى رواد الصناعة، ممثلين بشركات جوجل وOpenAI وMeta ومايكروسوفت، باستمرار إلى توسيع آفاق التطوير والهندسة، بينما تُحقق جامعات مرموقة مثل ستانفورد ومعهد ماساتشوستس للتكنولوجيا وبيركلي نتائجَ بارزةً في التحليل النظري والتحسينات الهيكلية واستكشاف نماذج جديدة. ومع استمرار توسع حجم النماذج ونماذج التدريب وحدود التطبيقات، يُظهر البحث في مجال Transformer اتجاهًا نحو التمايز العالي والتطور السريع، مما يجعل المراجعة المنهجية واختيار الأوراق البحثية التمثيلية أمرًا بالغ الأهمية.

من أجل السماح لمزيد من المستخدمين بمعرفة أحدث التطورات في مجال الذكاء الاصطناعي في الأوساط الأكاديمية، أطلق الموقع الرسمي لـ HyperAI (hyper.ai) الآن قسم "أحدث الأوراق البحثية"، والذي يقوم بتحديث أوراق البحث المتطورة في مجال الذكاء الاصطناعي كل يوم.

* أحدث الأبحاث في مجال الذكاء الاصطناعي:https://go.hyper.ai/hzChCلقد اخترنا لكم هذا الأسبوع بعناية 5 مقالات شائعة حول المتحولين.فرق من جامعة بكين، وديب سيك، وبايت دانس سيد، وميتا إيه آي، وغيرها. هيا نتعلم معًا! ⬇️

توصيات الورقة البحثية لهذا الأسبوع

  1. الذاكرة الشرطية عبر البحث القابل للتوسع: محور جديد للتخفيف من حدة نماذج اللغة الكبيرة

اقترح باحثون من جامعة بكين وشركة DeepSeek-AI وحدة Engram، وهي وحدة ذاكرة شرطية قابلة للتوسع ذات تعقيد بحث O(1). من خلال استخراجها من الطبقات الأولى لنموذج Transformer لاسترجاع المعرفة الثابتة، وتكميلها بتقنية MoE، تُتاح هذه الطبقات الأولى لإجراء عمليات حسابية استدلالية أعمق. وقد تحققت تحسينات ملحوظة في مهام الاستدلال (BBH +5.0، ARC-Challenge +3.7)، ومهام البرمجة والرياضيات (HumanEval +3.0، MATH +2.4)، ومهام السياق الطويل (Multi-Query NIAH: 84.2 → 97.0)، مع الحفاظ على نفس عدد المعاملات ونفس عدد عمليات الفاصلة العائمة في الثانية (FLOPs).

ورقة وتفسير مفصل:https://go.hyper.ai/SlcId

مثال على بنية نموذج النقش

2. العلوم والتكنولوجيا والهندسة والرياضيات: محولات قابلة للتوسيع مع وحدات تضمين

اقترح باحثون من جامعة كارنيجي ميلون وشركة Meta AI معًا بنيةً ثابتةً تعتمد على فهرسة التصنيفات، تُعرف باسم STEM. من خلال استبدال عملية الإسقاط العلوي لشبكة التغذية الأمامية (FFN) بالبحث عن تضمينات داخل الطبقة، يتم تحقيق تدريب مستقر، مما يقلل من عمليات الفاصلة العائمة (FLOPs) لكل تصنيف وعمليات الوصول إلى المعلمات بنحو الثلث، كما يتحسن أداء السياقات الطويلة من خلال تفعيل المعلمات القابل للتوسع. بفصل السعة عن الحساب والاتصال، تدعم STEM الجلب المسبق غير المتزامن لتخفيف العبء على وحدة المعالجة المركزية، وتستفيد من التضمينات ذات التوزيعات الزاوية الكبيرة لتحقيق سعة تخزين معرفية أعلى، وتتيح حقن المعرفة القابلة للتفسير والتحرير دون تعديل النص المدخل. في معايير المعرفة والاستدلال، تحقق تحسينات في الأداء تصل إلى 3-41 TP3T مقارنةً بالنماذج الأساسية الكثيفة.

ورقة وتفسير مفصل:https://go.hyper.ai/NPuoj

أمثلة على بنية أنظمة العلوم والتكنولوجيا والهندسة والرياضيات

تتكون مجموعة البيانات من مصادر متعددة: OLMo-MIX-1124 (3.9T مصنفة)، وهو مزيج من DCLM و Dolma1.7؛ NEMOTRON-CC-MATH-v1 (موجهة نحو الرياضيات)؛ و NEMOTRON-PRETRAINING-CODE-v1 (موجهة نحو التعليمات البرمجية).

مجموعة البيانات

3. SeedFold: توسيع نطاق التنبؤ ببنية الجزيئات الحيوية

اقترح فريق Seed التابع لشركة ByteDance نموذج SeedFold، وهو نموذج قابل للتوسع للتنبؤ ببنية الجزيئات الحيوية. يعمل هذا النموذج على زيادة سعة النموذج من خلال توسيع نطاق Pairformer، ويقلل من التعقيد الحسابي باستخدام آلية انتباه مثلثية خطية، ويحقق أداءً متميزًا على منصة FoldBench باستخدام مجموعة بيانات تقطير تحتوي على 26.5 مليون عينة، كما يتفوق على AlphaFold3 في المهام المتعلقة بالبروتينات.

ورقة وتفسير مفصل:https://go.hyper.ai/9zAID

مثال على وحدة انتباه مثلثية خطية جديدة

تحتوي مجموعة بيانات SeedFold على 26.5 مليون عينة، تم توسيعها من خلال تقطير البيانات على نطاق واسع من مصدرين رئيسيين: مجموعة البيانات التجريبية (0.18 مليون) ومجموعة البيانات المقطرة من AFDB وMGnify.

مجموعة البيانات

4. هل تُعدّ المحولات فعّالة في التنبؤ بالسلاسل الزمنية؟

تُشير هذه الورقة البحثية إلى أنه على الرغم من الانتشار السريع لتقنية المحولات في التنبؤ بالسلاسل الزمنية، فإن ثبات آلية الانتباه الذاتي فيها يؤدي إلى فقدان معلومات زمنية بالغة الأهمية. ومن خلال تجارب مقارنة، تتفوق النماذج الخطية البسيطة أحادية الطبقة بشكل ملحوظ على نماذج المحولات المعقدة في العديد من مجموعات البيانات الواقعية. تُشكل هذه النتيجة تحديًا للاتجاهات البحثية الحالية، وتدعو إلى إعادة تقييم فعالية المحولات في مهام السلاسل الزمنية.

ورقة وتفسير مفصل:https://go.hyper.ai/Hk05h

مثال على عملية لخطة تنبؤ السلاسل الزمنية القائمة على المحولات

المعايير ذات الصلة هي كما يلي:

5. نماذج الاستدلال تُنشئ مجتمعات فكرية

يقترح باحثون من جوجل وجامعة شيكاغو ومعهد سانتا فيه أن الأداء المتميز لنماذج الاستدلال المتقدمة مثل DeepSeek-R1 وQwQ-32B لا يعود فقط إلى سلاسل التفكير الأطول، بل إلى محاكاة ضمنية لـ"مجتمع الأفكار" - حوار متعدد الأطراف بين وجهات نظر متنوعة ذات شخصيات وخبرات مختلفة داخل النموذج. ومن خلال التفسير الآلي والتعلم المعزز المُتحكم به، يُظهرون علاقة سببية بين سلوكيات المحادثة (مثل التساؤل، والصراع، والمصالحة) وتنوع وجهات النظر مع الدقة، حيث يمكن لتوجيه علامة التعبير "المفاجأة" أن يُضاعف أداء الاستدلال. يُتيح هذا التنظيم الاجتماعي للأفكار استكشافًا منهجيًا لمساحة الحلول، مما يُشير إلى أن مبادئ الذكاء الجماعي - التنوع، والنقاش، وتنسيق الأدوار - تُشكل أساسًا جوهريًا للاستدلال الاصطناعي الفعال.

ورقة وتفسير مفصل:https://go.hyper.ai/0oXCC

مثال على إطار متعدد الأبعاد

تحتوي مجموعة البيانات على 8262 مسألة استدلالية من مجالات متعددة، تشمل المنطق الرمزي، وحل المسائل الرياضية، والاستدلال العلمي، واتباع التعليمات، والاستدلال متعدد العوامل. وهي تدعم الاستدلال متعدد المنظورات وتُستخدم لتدريب النماذج وتقييمها.

مجموعة البيانات

هذا هو محتوى توصيات البحث لهذا الأسبوع. لمزيد من أبحاث الذكاء الاصطناعي المتطورة، يُرجى زيارة قسم "أحدث الأبحاث" على الموقع الرسمي لـ hyper.ai.

نرحب أيضًا بفرق البحث لتقديم نتائج وأوراق بحثية عالية الجودة إلينا. يمكن للمهتمين إضافة حساب نيوروستار على وي تشات (معرف وي تشات: Hyperai01).

نراكم في الاسبوع القادم!