HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

وهم العائدات المتناقصة: قياس التنفيذ على المدى الطويل في نماذج اللغة الكبيرة

Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

وهم العائدات المتناقصة: قياس التنفيذ على المدى الطويل في نماذج اللغة الكبيرة

الملخص

هل تؤدي التوسع المستمر للنماذج اللغوية الكبيرة (LLMs) إلى عوائد متناقصة؟ غالبًا ما ينشأ القيمة الواقعية من طول المهمة التي يمكن لوكيل إنجازها. نبدأ هذا العمل بملاحظة حقيقة بسيطة لكنها معاكسة للمنطق، وهي أن المكاسب الحدية في الدقة الأحادية الخطوة يمكن أن تتراكم لتُحدث تحسينات أسيّة في طول المهمة التي يمكن للنموذج إنجازها بنجاح. ثم نُجادل بأن فشل النماذج اللغوية الكبيرة عند تمديد المهام البسيطة ينشأ من أخطاء في التنفيذ، وليس من عجز في التفكير المنطقي. نقترح عزل قدرة التنفيذ من خلال توفير المعرفة والخطة الضروريتين صراحةً لحل المهمة ذات الأفق الطويل. ونجد أن النماذج الأكبر قادرة على تنفيذ عدد كبير من الخطوات بدقة، حتى عندما تحقق النماذج الصغيرة دقة 100٪ في كل خطوة منفردة. ونلاحظ أن دقة النماذج في كل خطوة تنخفض مع زيادة عدد الخطوات. وهذا ليس ناتجًا فقط عن قيود السياق الطويل — بل نلاحظ بشكل غريب تأثيرًا ذاتيًا (self-conditioning) — حيث تزداد احتمالية وقوع النماذج في أخطاء عندما يحتوي السياق على أخطاء من الدورات السابقة. ولا يختفي هذا التأثير ذاتيًا حتى مع زيادة حجم النموذج. على العكس، تُظهر النماذج الحديثة المُفكّرة (thinking models) عدم تأثرها بالعوامل الذاتية، ويمكنها تنفيذ مهام أطول بكثير في خطوة واحدة. في الختام، نُقيّم النماذج المتطورة من نوع "التفكير" من حيث طول المهمة التي يمكنها تنفيذها في خطوة واحدة. وبشكل عام، من خلال التركيز على القدرة على التنفيذ، نأمل أن نُسهم في تهدئة الجدل حول كيفية قدرة النماذج اللغوية الكبيرة على حل المشكلات المعقدة بالاستدلال، بينما تفشل في المهام البسيطة عند تمديدها، ونُبرز الفوائد الهائلة لتوسيع حجم النموذج وزيادة حسابات الزمن أثناء الاختبار التسلسلي في المهام ذات الأفق الطويل.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
وهم العائدات المتناقصة: قياس التنفيذ على المدى الطويل في نماذج اللغة الكبيرة | الأوراق البحثية | HyperAI