HyperAIHyperAI

Command Palette

Search for a command to run...

أين يمكن العثور على الفهم في التدريب المسبق للنماذج اللغوية الكبيرة؟ مراقبة الانتقال من الحفظ إلى التعميم دون اختبار

Ziyue Li Chenrui Fan Tianyi Zhou

الملخص

التفهم، أي استمرار تحسين أداء الاختبار لفترة طويلة بعد تقارب خسارة التدريب، قد شوهد مؤخرًا في تدريب الشبكات العصبية، مما يجعل آليات التعميم والقدرات الناشئة الأخرى مثل الاستدلال غامضة. بينما عادةً ما تقوم الدراسات السابقة بتدريب نماذج صغيرة على مهام قليلة أو محددة للغاية لآلاف الدورات، فإننا نجري أول دراسة للتفهم على نقاط التحقق خلال مرحلة التدريب الأولي الواحد لنموذج لغوي كبير يبلغ حجمه 7 مليار معلمة (LLM)، أي OLMoE. نحن نحسب خسارة التدريب ونقيم التعميم على مجموعة متنوعة من المهام القياسية، بما في ذلك الاستدلال الرياضي، وإنشاء الرموز البرمجية، ومهام استرجاع المعرفة الشائعة والمعرفة الخاصة بال مجال.لأول مرة، تؤكد دراستنا أن التفهم لا يزال يحدث أثناء التدريب الأولي للنماذج الأساسية الكبيرة الحجم، رغم أن البيانات المختلفة قد تدخل مراحل التفهم بشكل غير متزامن. كما نقوم بفك غموض "ظهور التعميم" في التفهم من خلال دراسة الديناميكيات الداخلية لنماذج اللغة الكبيرة (LLM). تحديدًا، نجد أن المسارات التي تتبعها عينات التدريب (أي اختيارات الخبراء عبر الطبقات) تتغير من كونها عشوائية ومحددة لكل حالة إلى أنها أكثر هيكلية وقابلة للمشاركة بين العينات أثناء فترة التفهم. بالإضافة إلى ذلك، تنخفض تعقيدات مسار العينة رغم ثبات الخسارة. هذه المؤشرات تدل على تحول من الحفظ إلى التعميم، مما يقدم تفسيرًا آليًا لتأخير ظهور القدرة على التعميم. في هذه الدراسة، طورنا مقاييسين جديدَين لتقدير المسافة بين المسارات وتعقيد مسار واحد. أظهرنا قدرتهما على توقع تحسن الأداء العام في مجموعة متنوعة من المهام اللاحقة. هما فعّالان وبسيطان في الحساب ويعتمدان فقط على بيانات التدريب. لذلك لهما قيمة عملية في مرحلة التدريب الأولي، حيث يمكننا رصد أداء التعميم دون الحاجة إلى التعديل الدقيق واختبار النموذج. نظريًا، أظهرنا أن المسارات الأكثر هيكلية تنخفض فيها تعقيد النموذج وتتحسن حدود القدرة على التعميم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp