HyperAIHyperAI
منذ 3 أشهر

التحسين الدقيق المتين للنماذج صفرية الاختبار

Mitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo-Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt
التحسين الدقيق المتين للنماذج صفرية الاختبار
الملخص

تقدم النماذج الكبيرة المُدرَّبة مسبقًا مثل CLIP أو ALIGN دقة متسقة عبر مجموعة متنوعة من توزيعات البيانات عند إجراء الاستنتاج بدون تدريب مسبق (أي دون تدريب مخصص على مجموعة بيانات معينة). وعلى الرغم من أن الطرق الحالية للتدريب المخصص تحسن بشكل كبير الدقة على توزيع الهدف المحدد، فإنها غالبًا ما تقلل من المقاومة تجاه التحولات في التوزيع. نعالج هذه التناقضات من خلال تقديم طريقة بسيطة وفعّالة لتحسين المقاومة أثناء التدريب المخصص: تجميع أوزان النموذج بدون تدريب (zero-shot) والنموذج المدرب مخصصًا (WiSE-FT). مقارنة بالتدريب المخصص القياسي، تُظهر طريقة WiSE-FT تحسينات كبيرة في الدقة عند حدوث تحولات في التوزيع، مع الحفاظ على دقة عالية على توزيع الهدف. على ImageNet وخمسة تحولات في التوزيع المشتقة منها، تُحسّن WiSE-FT الدقة عند حدوث تحولات في التوزيع بنسبة 4 إلى 6 نقاط مئوية مقارنة بالعمل السابق، مع زيادة دقة ImageNet بنسبة 1.6 نقطة مئوية. كما تحقق WiSE-FT مكاسب مماثلة في المقاومة (من 2 إلى 23 نقطة مئوية) على مجموعة متنوعة من ستة تحولات إضافية في التوزيع، وتحسّن الدقة بنسبة 0.8 إلى 3.3 نقطة مئوية مقارنة بالتدريب المخصص القياسي على سبعة مجموعات بيانات شائعة في التعلم النقلية. وتُحقّق هذه التحسينات دون أي تكلفة حسابية إضافية أثناء التدريب أو أثناء الاستنتاج.