HyperAI
Back to Headlines

MemAgent: إستراتيجية ذاكرة تعتمد على التعلم الآلي لتوفير معالجة سياق طويلة في نماذج اللغات الكبيرة بتعقيد خطي ودقة عالية

منذ 2 أيام

يعتبر التعامل مع الوثائق الطويلة للغاية تحديًا مستمرًا للنماذج اللغوية الكبيرة (LLMs). رغم استخدام تقنيات مثل تطويل الإدخال وانتباه نادر، تتعرض هذه النماذج غالبًا لتدهور الأداء وارتفاع التكلفة الحسابية. لمعالجة هذا الأمر، قدم باحثون من ByteDance Seed وTsinghua University إطار عمل جديد يدعى MemAgent، وهو وكيل ذاكرة يستند إلى التعلم التقويمي ويوفر معالجة سياقات طويلة بتعقيد خطي وأقل خسارة في الأداء. حدود الأساليب الحالية الحلول الحالية لمعالجة السياقات الطويلة تنقسم إلى ثلاث فئات رئيسية: تقنيات تطويل الإدخال: تهدف إلى زيادة طول الإدخال الذي يمكن للنموذج معالجته. الانتباه النادر: يحاول تقليل التكلفة الحسابية عبر التركيز على أجزاء محددة من الوثيقة. النسخ واللُّصق: يعتمد على تكرار المعلومات الهامة في أجزاء مختلفة من الوثيقة. ومع ذلك، فإن هذه الأساليب لا تحقق الثلاثة خصائص الأساسية المطلوبة: دعم إدخالات ذات أطوال عشوائية، دقة ثابتة، وكفاءة تعقيد خطي. MemAgent: استراتيجية ذاكرة شبيهة بالإنسان مستوحاة من الطريقة التي يلخص بها البشر المعلومات الأساسية ويتجاهلون الضوضاء، تُعالج MemAgent الإدخال كتيار من الأدلة. في كل خطوة، تقوم بقراءة جزء من الوثيقة والذاكرة الداخلية، ثم تقوم بتحديث هذه الذاكرة مع سياق مضغوط ومحدث. الابتكارات الرئيسية: ذاكرة مستندة إلى الرموز: تستخدم ذاكرة تحتوي على رموز يمكن تحديثها تدريجيًا. تدريب متعدد الحوارات: يتم تدريب MemAgent باستخدام أنابيب تدريب حوارية متعددة. تحسين السياسة النسبية للمجموعة (GRPO): يستخدم لتعزيز التحديثات الذاكرة المستندة إلى المكافآت. تمثيل تدريجي للذاكرة: يتيح للوكيل تكوين ذاكرة تمثيلية من الأدلة الجديدة والموجودة. التدريب باستخدام GRPO يعامل MemAgent كل تفاعل مع جزء من الوثيقة كحوار مستقل. يتم تدريبه باستخدام تحسين السياسة النسبية للمجموعة (GRPO) ضمن أنابيب تدريب حوارية متعددة تُعرف بـ DAPO، مما يدفع التحديثات الذاكرة بواسطة المكافآت. العناصر الرئيسية: حوارات مستقلة: كل جزء من الوثيقة يُعتبر حوارًا منفصلًا. تحديثات ذاكرة موجهة بالمكافآت: تشجع على ضغط المعلومات ذات الصلة وإهمال المعلومات غير ذات الصلة. تقييم الأداء تم تدريب MemAgent باستخدام مقاييس RULER وأدوات اختبار مصنعة من HotpotQA وSQuAD، بسياق إدخال يبلغ 8K رمز وتم تطويله حتى 3.5 مليون رمز. | النموذج | 224K | 896K | 3.5M | | --- | --- | --- | --- | | Qwen2.5-Instruct-14B-1M | 37.5% | 0.0% | N/A | | QwenLong-L1-32B | 17.2% | 11.7% | N/A | | RL-MemAgent-14B | 81.3% | 77.3% | 78.1% | حافظ MemAgent على أكثر من 95% من الدقة في مقاييس RULER (من 8K إلى 512K رمز) وأظهر أداءً أفضل بشكل متسق من النماذج القاعدية المعتمدة على السياقات الطويلة والتكثيف. دراسة حالة: الأسئلة متعددة الخطوات عند طرح السؤال "المدينة التي يقع فيها مقر مخرج الكوميديا الرومانسية 'Big Stone Gap' في نيويورك هي؟"، قامت MemAgent بتتبع المعلومات ذات الصلة عبر ثلاثة أجزاء من الوثيقة: التعرف على المعلومات غير المرتبطة: اكتشفت الوكيل المعلومات غير ذات الصلة لكنها حافظت على معلومات الموقع. حماية الذاكرة ضد المعلومات غير المرتبطة: لم تتأثر الذاكرة بالمعلومات غير ذات الصلة في الأجزاء الأخرى. تحديث الذاكرة عند العثور على السيرة الذاتية: قام بتحديث الذاكرة بشكل صحيح عندما واجه سيرة أدريانا تريغياني. الإجابة النهائية كانت: غرينويتش فيليج، نيويورك. الأساس النظري والتعقيد يقوم MemAgent بإعادة صياغة النموذج التلقائي باستخدام المتغيرات الذاكرة الكامنة (m₁...mₖ): [ p(x₁:N) = ∑ₘ₁:ₖ ∏ₖ p(cₖ | mₖ₋₁) * p(mₖ | cₖ, mₖ₋₁) ] هذه الصياغة تُمكِّن من تكلفة حاسوبية بتعقيد O(N) وذاكرة متوسطة يمكن قراءتها بسهولة من قبل الإنسان، على عكس ضغط الميزات المستندة إلى الانتباه. يعتبر التعلم التقويمي أساسيًا، حيث أن التحديثات الذاكرة متقطعة ولا يمكن تعلمها عبر التدرج العكسي. الخاتمة يقدم MemAgent حلًا قابلًا للتطوير وكفءًا للمشكلة الثلاثية للسياقات الطويلة: دعم إدخالات ذات أطوال غير محدودة، دقة قريبة من عدم الخسارة، وتعقيد خطي. يتيح الآلية المستندة إلى التعلم التقويمي لنسخ الذاكرة للنماذج اللغوية الكبيرة القدرة على قراءة، تلخيص، وإنشاء محتوى عبر إدخالات تتكون من ملايين الرموز دون الحاجة إلى تعديلات هندسية. الأسئلة الشائعة س1: ما هو MemAgent؟ MemAgent هو إطار عمل يستند إلى التعلم التقويمي ويوفر للنماذج اللغوية الكبيرة رموز ذاكرة لمعالجة السياقات الطويلة بكفاءة. س2: كيف يختلف عن طرق الانتباه أو التطويل؟ على عكس تقنيات تطويل الإدخال أو الانتباه النادر، يستخدم MemAgent ذاكرة مستندة إلى الرموز يتم تحديثها عبر التعلم التقويمي. س3: أي النماذج يمكن تطبيق MemAgent عليها؟ يمكن تطبيق MemAgent على أي نموذج لغوي كبير مستند إلى المتحولات (Transformers) دون الحاجة إلى تعديلات في بنية النموذج. س4: كيف يتطور مع زيادة حجم الإدخال؟ يحافظ على تعقيد حاسوبي خطي مهما كان حجم الإدخال من خلال ثبات حجم الذاكرة. س5: ما هي التطبيقات المحتملة لـ MemAgent؟ يمكن استخدام MemAgent في أسئلة الإجابة على الوثائق الطويلة، أنظمة ذاكرة الوكلاء، مراجعة الوثائق القانونية، تحليل الأدب العلمي، واتخاذ القرار في الوقت الحقيقي باستخدام قواعد بيانات كبيرة. لمزيد من التفاصيل، يمكنك الاطلاع على البحث الأصلي. جميع الحقوق لهذا البحث تعود إلى الباحثين المشار إليهم في المشروع. فرصة رعاية إذا كنت ترغب في الوصول إلى أكبر المطورين المؤثرين في مجال الذكاء الاصطناعي في الولايات المتحدة وأوروبا، فأنت تملك فرصة فريدة من خلال رعاية هذا المحتوى. يحظى هذا المشروع بقراء شهريين يبلغ عددهم أكثر من مليون قارئ، ومطورين مجتمعين يزيد عددهم عن نصف مليون، مما يوفر فرصًا بلا حدود. [اكتشف فرصة الرعاية]

Related Links