HyperAIHyperAI
منذ 2 أشهر

إعادة النظر في فعالية البيانات غير المعقولة في عصر التعلم العميق

Chen Sun; Abhinav Shrivastava; Saurabh Singh; Abhinav Gupta
إعادة النظر في فعالية البيانات غير المعقولة في عصر التعلم العميق
الملخص

يمكن نسب نجاح التعلم العميق في الرؤية إلى: (أ) النماذج ذات القدرة العالية؛ (ب) زيادة قوة الحوسبة؛ و(ج) توفر بيانات موسومة على نطاق واسع. منذ عام 2012، تم إحراز تقدم كبير في قدرات التمثيل للنماذج وفي قدرات الحوسبة لوحدات معالجة الرسومات (GPUs). ومع ذلك، فإن حجم أكبر مجموعة بيانات ظل ثابتاً بشكل مفاجئ. ماذا سيحدث إذا زدنا حجم مجموعة البيانات بمقدار 10 أضعاف أو 100 ضعف؟ يهدف هذا البحث إلى إزالة الغموض المحيط بالعلاقة بين "البيانات الهائلة" والتعلم العميق البصري. من خلال استغلال مجموعة البيانات JFT-300M التي تحتوي على أكثر من 375 مليون تصنيف غير دقيق لمائتي مليون صورة، ندرس كيف ستتغير أداء المهام البصرية الحالية إذا تم استخدام هذه البيانات للتعلم التمثيلي. يقدم بحثنا بعض النتائج المفاجئة (وبعض المتوقعة). أولاً، نجد أن الأداء في المهام البصرية يزيد بشكل لوغاريتمي بناءً على حجم بيانات التدريب. ثانياً، نظهر أن التعلم التمثيلي (أو التدريب الأولي) لا يزال يحمل الكثير من الوعد. يمكن تحسين الأداء في العديد من المهام البصرية ببساطة عن طريق تدريب نموذج أساسي أفضل. وأخيراً، كما هو متوقع، نقدم نتائج جديدة رائدة للمهام البصرية المختلفة بما في ذلك تصنيف الصور، وكشف الكائنات، والتقطيع الدلالي، وتقدير وضع الإنسان. آمل بصدق أن يلهم هذا البحث مجتمع الرؤية ليقدر قيمة البيانات ولا يعمل جهوداً مشتركة في بناء مجموعات بيانات أكبر.