HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة تصور ذاكرة النماذج اللغوية الكبيرة: استخدام السياق كبيانات تدريب يُفعّل تعلّم النموذج أثناء الاختبار

تُظهر الدراسات الحديثة أن النماذج اللغوية الكبيرة (LLMs) ما زالت تعاني من قصور في الذاكرة، رغم التوسع المستمر في حجم النافذة السياقية، حيث تكرر الأخطاء وتُظهر ضعفًا في التكيف مع السياقات الطويلة. على عكس البشر، الذين يتعلمون من التجارب وينقلون الدروس إلى المستقبل، تفشل النماذج في ترسيخ المعرفة من خلال السياق الطويل. الفرق الجوهري يكمن في أن البشر يُلخّصون التجارب إلى مفاهيم وفهوم، بينما تعتمد النماذج التقليدية، مثل النماذج القائمة على الانتباه الكامل (full attention)، على حفظ كل تفاصيل السياق، ما يُسبب تكاليف حسابية ترتفع بشكل خطي مع طول السياق. لحل هذه المشكلة، تم تطوير طريقة جديدة تُسمى "التدريب في وقت الاختبار (Test-Time Training) بصيغة نهائية-إلى-نهائية (TTT-E2E)"، التي تُعيد تصور الذاكرة في النماذج اللغوية. تُفعّل هذه الطريقة عملية ضغط السياق إلى الأوزان الداخلية للنموذج، من خلال مواصلة تدريبه على التنبؤ بالكلمة التالية أثناء الاستخدام الفعلي، لكن بآلية مُحسّنة. الفكرة الأساسية تكمن في استخدام التدريب عبر التنبؤ بالكلمة التالية، لكن مع تهيئة النموذج مسبقًا عبر "التعلم الميتا" (meta-learning) لتمكينه من التعلم بسرعة وفعالية في وقت الاختبار. أظهرت النتائج أن TTT-E2E تتفوّق على جميع الطرق الحالية من حيث التوسع مع طول السياق. في الرسم البياني للخطأ (loss)، تُظهر TTT-E2E أداءً أفضل بكثير من النماذج الأخرى، حتى عند امتداد السياق إلى 128K و2M من الرموز، بينما تُحافظ على ميزة ثابتة مقارنة بالنماذج ذات الانتباه الكامل. وفيما يتعلق بالتأخير (latency)، تُظهر TTT-E2E تكلفة ثابتة لكل رمز، بغض النظر عن طول السياق، ما يجعلها أسرع بنسبة 2.7 مرة من الانتباه الكامل عند 128K، و35 مرة عند 2M، على جهاز NVIDIA H100. هذا الأداء المتميز يُعد خطوة جوهرية نحو حل مشكلة السياق الطويل، التي تُعد من أبرز التحديات في بحوث النماذج اللغوية. تُظهر TTT-E2E اتجاهات تدريجية مستقرة دون أي "حائط" يُوقف التوسع، ما يوحي بأن حلًا أساسيًا قد يكون قاب قوسين أو أدنى بحلول 2026. من ناحية مقارنة، تُشبه TTT التحديث الذاتي للدماغ البشري، بينما تُشبه منهجيات الاسترجاع (مثل RAG) استخدام مذكرة مكتوبة — مفيدة للتفاصيل الدقيقة، لكنها لا تُسهم في تطوير الفهم العميق. تُعد القدرة على ضغط السياق الطويل إلى معرفة تنبؤية وفهّامة هي العامل الحاسم في كفاءة النموذج. رغم نجاحها، تواجه TTT-E2E تحديًا في مرحلة التدريب المُبدئي، حيث يتطلب التعلم الميتا حسابات مزدوجة للGradient، ما يجعل عملية التدريب أبطأ بنسبة 3.4 مرة عند السياقات القصيرة. لكن هذا يمكن التغلب عليه عبر تطوير نوى انتباه مخصصة أو بدء التدريب من نموذج تقليدي دون TTT. في الختام، تم إتاحة البحث الكامل والكود المصدر للجمهور، مما يفتح المجال أمام تعاون واسع لتحسين هذه التقنية ودمجها في التطبيقات المستقبلية.

الروابط ذات الصلة

إعادة تصور ذاكرة النماذج اللغوية الكبيرة: استخدام السياق كبيانات تدريب يُفعّل تعلّم النموذج أثناء الاختبار | القصص الشائعة | HyperAI