HyperAIHyperAI
منذ 2 أشهر

التوسيع المركب للتعلم النقل بدون أمثلة

Hieu Pham; Zihang Dai; Golnaz Ghiasi; Kenji Kawaguchi; Hanxiao Liu; Adams Wei Yu; Jiahui Yu; Yi-Ting Chen; Minh-Thang Luong; Yonghui Wu; Mingxing Tan; Quoc V. Le
التوسيع المركب للتعلم النقل بدون أمثلة
الملخص

نقدم طريقة تكبير مركبة - باسم BASIC - تحقق دقة تصنيف أولية بنسبة 85.7% على مجموعة التحقق من صحة ImageNet ILSVRC-2012 دون التعلم من أي مثال مصنف في ImageNet. هذه الدقة تتفوق على أفضل النماذج المماثلة المنشورة - CLIP و ALIGN - بمقدار 9.3%. كما يظهر نموذجنا BASIC تحسينات كبيرة في مقاييس الثبات. على سبيل المثال، في خمس مجموعات اختبار تحتوي على تحولات توزيع طبيعية مثل ImageNet-{A,R,V2,Sketch} و ObjectNet، يحقق نموذجنا دقة تصنيف أولية متوسطة بنسبة 84.3%,وهذا يعني انخفاضًا بسيطًا فقط من دقة ImageNet الأصلية. لتحقيق هذه النتائج، قمنا بتكبير إطار التعلم التضادي لـ CLIP و ALIGN في ثلاثة أبعاد: حجم البيانات، حجم النموذج، وحجم الدفعة (batch size). يتكون مجموعتنا من بيانات 6.6 مليار زوج صورة-نص ضوضائية، وهو ما يزيد عن ALIGN بأربع مرات وعن CLIP بستة عشر مرة. أكبر نموذج لدينا يحتوي على 3 مليار وزن (weight)، وهو ما يزيد عن ALIGN وCLIP بنسبة 3.75 مرة من حيث عدد المعاملات وبثمانية أضعاف من حيث عمليات التعويم النقاطي (FLOPs). وأخيرًا، يصل حجم دفعتنا إلى 65536، وهو ما يزيد عن CLIP بمقدار الضعف وعن ALIGN بأربع مرات.واجهنا تحديين رئيسيين فيما يتعلق بقواعد التكبير في BASIC. الأول هو أن التحدي الرئيسي في تنفيذ قواعد التكبير المركبة لـ BASIC هو الذاكرة المحدودة للمسرعات مثلGPUs وTPUs. للتعويض عن حدود الذاكرة، نقترح طريقتين بسيطتين تستفيدان من نقاط التفتيش للتدرج (gradient checkpointing) والموازاة بين النماذج (model parallelism). الثاني هو أنه بينما كان زيادة حجم مجموعة البيانات وحجم النموذج هي الطريقة الفعلية لتحسين أداء نماذج التعلم العميق مثل BASIC، فإن تأثير حجم الدفعة الضخم التضادي على هذه النماذج الصورية-النصية التي تم تدريبها بطريقة تضادية لم يكن معروفًا جيدًا. لتسليط الضوء على فوائد الحجم الكبير للدفعة التضادية، قمنا بتطوير إطار نظري يظهر أن الحجم الأكبر للدفعة التضادية يؤدي إلى فروق عاملة أصغر للنماذج الصورية-النصية مثل BASIC.请注意,由于阿拉伯语的书写习惯是从右向左,因此在实际应用中,您可能需要调整文本的方向。此外,对于一些专有名词和技术术语,我已尽量使用通用译法,并在必要时标注了原文以确保信息的完整性。

التوسيع المركب للتعلم النقل بدون أمثلة | أحدث الأوراق البحثية | HyperAI