HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أيام
LLM
Transformer

النماذج اللغوية تحتاج للنوم

اكتشف باحثون في مجال الذكاء الاصطناعي طريقة جديدة لتحسين قدرة نماذج اللغة الكبيرة على المهام المعقدة التي تتطلب ذاكرة طويلة المدى، مستوحاة من آلية النوم في الدماغ البشري. يعاني النماذج الحديثة المعتمدة على بنية "ترانسفورمر" من صعوبة في معالجة السياقات الطويلة لأن آلية الانتباه فيها تستهلك موارد حسابية هائلة مع زيادة طول النص، مما يحد من فعاليتها في المهام التي تتطلب استدعاء معلومات من بداية المحادثة. لحل هذه المشكلة، قدم العلماء آلية تشبه النوم تسمى "دمج السياق"، حيث يقوم النموذج بتحويل المعلومات الحديثة التي تم جمعها مؤخرًا إلى أوزان سريعة دائمة قبل مسح ذاكرته المؤقتة، وهو ما يعرف بـ "ذاكرة المفتاح والقيمة". خلال فترة "النوم" هذه، لا يرد النموذج على المستخدمين مباشرة، بل يقوم بإجراء جولات متعددة بمرور السياق المتراكم في الخلفية لتحديث معرفته الداخلية. يتم ذلك من خلال تحديث أوزان سريعة في وحدات النموذج المسماة "النماذج المكانية السريعة" أو SSM، بناءً على قاعدة تعلم محلية. تتيح هذه التقنية إكمال الحسابات الإضافية أثناء فترات الراحة للنموذج، مما يحافظ على سرعة استجابته الفورية عند الاستيقاظ والتفاعل مع المستخدم. في اختباراتهم على مهام اصطناعية دقيقة، بما في ذلك محاكاة الأوتوماتا الخلوية واسترجاع المعلومات من الرسوم البيانية متعددة الخطوات، وعلى مهام رياضية معقدة تتطلب استدلالًا عميقًا، فشل النموذج التقليدي ونماذج الهجين المختلطة في تحقيق النتائج المرجوة. على العكس من ذلك، أظهرت الطريقة الجديدة قدرة فائقة على النجاح في هذه المهام المستحيلة نسبيًا. وقد تبين أن زيادة عدد الجولات التي يقوم بها النموذج أثناء "نومه" تؤدي مباشرة إلى تحسين دقته، خاصة في الحالات التي تتطلب تفكيرًا عميقًا وسلسًا. تشير النتائج إلى أن إضافة هذا البعد الزمني لمعالجة المعلومات يمكن أن يكسر القيود الحسابية الحالية دون التضحية بسرعة الأداء. يندرج هذا البحث ضمن مجالات الحوسبة واللغات والفنانيفي، ويهدف إلى دفع حدود ما يمكن للنماذج اللغوية تحقيقه. يتم نشر الدراسة كورقة بحثية على منصة "أرشيف" تحت رقم مرجعي يشير إلى تخصص الحوسبة واللغات، مما يجعلها متاحة للمجتمع العلمي للمراجعة والاستمرار في التطوير. هذه الآلية تمثل تحولًا في كيفية تصميم الذكاء الاصطناعي للتعامل مع المعلومات طويلة المدى، حيث يتم فصل عملية التعلم العميق عن عملية التنبؤ الفوري، تمامًا كما يحدث في الدماغ البشري بين فترات النوم واليقظة.

الروابط ذات الصلة