HyperAIHyperAI
منذ 2 أشهر

أين يمكن العثور على الفهم في التدريب المسبق للنماذج اللغوية الكبيرة؟ مراقبة الانتقال من الحفظ إلى التعميم دون اختبار

Ziyue Li, Chenrui Fan, Tianyi Zhou
أين يمكن العثور على الفهم في التدريب المسبق للنماذج اللغوية الكبيرة؟ مراقبة الانتقال من الحفظ إلى التعميم دون اختبار
الملخص

التفهم، أي استمرار تحسين أداء الاختبار لفترة طويلة بعد تقارب خسارة التدريب، قد شوهد مؤخرًا في تدريب الشبكات العصبية، مما يجعل آليات التعميم والقدرات الناشئة الأخرى مثل الاستدلال غامضة. بينما عادةً ما تقوم الدراسات السابقة بتدريب نماذج صغيرة على مهام قليلة أو محددة للغاية لآلاف الدورات، فإننا نجري أول دراسة للتفهم على نقاط التحقق خلال مرحلة التدريب الأولي الواحد لنموذج لغوي كبير يبلغ حجمه 7 مليار معلمة (LLM)، أي OLMoE. نحن نحسب خسارة التدريب ونقيم التعميم على مجموعة متنوعة من المهام القياسية، بما في ذلك الاستدلال الرياضي، وإنشاء الرموز البرمجية، ومهام استرجاع المعرفة الشائعة والمعرفة الخاصة بال مجال.لأول مرة، تؤكد دراستنا أن التفهم لا يزال يحدث أثناء التدريب الأولي للنماذج الأساسية الكبيرة الحجم، رغم أن البيانات المختلفة قد تدخل مراحل التفهم بشكل غير متزامن. كما نقوم بفك غموض "ظهور التعميم" في التفهم من خلال دراسة الديناميكيات الداخلية لنماذج اللغة الكبيرة (LLM). تحديدًا، نجد أن المسارات التي تتبعها عينات التدريب (أي اختيارات الخبراء عبر الطبقات) تتغير من كونها عشوائية ومحددة لكل حالة إلى أنها أكثر هيكلية وقابلة للمشاركة بين العينات أثناء فترة التفهم. بالإضافة إلى ذلك، تنخفض تعقيدات مسار العينة رغم ثبات الخسارة. هذه المؤشرات تدل على تحول من الحفظ إلى التعميم، مما يقدم تفسيرًا آليًا لتأخير ظهور القدرة على التعميم. في هذه الدراسة، طورنا مقاييسين جديدَين لتقدير المسافة بين المسارات وتعقيد مسار واحد. أظهرنا قدرتهما على توقع تحسن الأداء العام في مجموعة متنوعة من المهام اللاحقة. هما فعّالان وبسيطان في الحساب ويعتمدان فقط على بيانات التدريب. لذلك لهما قيمة عملية في مرحلة التدريب الأولي، حيث يمكننا رصد أداء التعميم دون الحاجة إلى التعديل الدقيق واختبار النموذج. نظريًا، أظهرنا أن المسارات الأكثر هيكلية تنخفض فيها تعقيد النموذج وتتحسن حدود القدرة على التعميم.

أين يمكن العثور على الفهم في التدريب المسبق للنماذج اللغوية الكبيرة؟ مراقبة الانتقال من الحفظ إلى التعميم دون اختبار | أحدث الأوراق البحثية | HyperAI