HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

TiKMiX: أخذ تأثير البيانات في الاحتمال الديناميكي للمزيج لتدريب النموذج اللغوي

Yifan Wang Binbin Liu Fengze Liu Yuanfan Guo Jiyao Deng Xuecheng Wu Weidong Zhou Xiaohuan Zhou Taifeng Wang

TiKMiX: أخذ تأثير البيانات في الاحتمال الديناميكي للمزيج لتدريب النموذج اللغوي

الملخص

الخلطية البيانات المستخدمة في التدريب المسبق لنموذج لغوي تُعدّ حجر الزاوية في الأداء النهائي للنموذج. ومع ذلك، فإن الاستراتيجية الثابتة لخلط البيانات تكون غير مثالية، إذ تتغير تفضيلات النموذج في التعلم بين مختلف مجالات البيانات بشكل ديناميكي خلال عملية التدريب. وبشكل جوهري، يظل مراقبة هذه التفضيلات المتغيرة بطريقة حسابية فعّالة تحديًا كبيرًا. ولحل هذه المشكلة، نقترح طريقة تُسمى TiKMiX، التي تقوم بتعديل خلطية البيانات بشكل ديناميكي وفقًا لتفضيلات النموذج المتغيرة. وتُقدّم TiKMiX مفهوم "تأثير المجموعة" (Group Influence)، وهو مقياس فعّال لتقييم تأثير مجالات البيانات على النموذج. ويُمكّن هذا المقياس من صياغة مشكلة خلط البيانات كبحث عن توزيع مثالي يُعظم التأثير. ونحل هذه المشكلة عبر طريقتين: TiKMiX-D التي تعتمد على التحسين المباشر، وTiKMiX-M التي تستخدم نموذجًا تنبؤيًا بالانحدار لتقدير خلطية أفضل. وقد تم تدريب نماذج مختلفة الأحجام (بحسب عدد المعاملات) على ما يصل إلى تريليون رمز. وقد تفوقت TiKMiX-D على الطرق الرائدة حاليًا مثل REGMIX، مع استخدامها فقط 20% من الموارد الحسابية. كما حققت TiKMiX-M مكسبًا متوسطًا في الأداء بنسبة 2% عبر 9 معايير تطبيقية (benchmarks). وتكشف تجاربنا أن تفضيلات النموذج تتطور مع تقدم التدريب وزيادة حجمه، ونُظهر أن تعديل خلطية البيانات ديناميكيًا بناءً على مفهوم "تأثير المجموعة"، وهو مقياس مباشر لتلك التفضيلات، يؤدي إلى تحسين كبير في الأداء، وذلك من خلال تقليل ظاهرة "عدم استيعاب كافٍ للبيانات" التي تحدث عند استخدام نسب ثابتة لخلط البيانات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TiKMiX: أخذ تأثير البيانات في الاحتمال الديناميكي للمزيج لتدريب النموذج اللغوي | الأوراق البحثية | HyperAI