منذ 6 أشهر

الملخص

يُعدُّ ImageNet-1K المجموعة الأساسية للتدريب المسبق للنماذج العميقة في مهام الرؤية الحاسوبية. بينما تُستخدم مجموعة بيانات ImageNet-21K، التي تتميز بحجمها الأكبر وتعدد محتواها، بشكل أقل تكرارًا في التدريب المسبق، وذلك أساسًا بسبب تعقيدها وقلة وصولها وتقديرها غير الكافي لقيمتها المضافة. يهدف هذا البحث إلى سد هذه الفجوة، وجعل التدريب المسبق عالي الجودة والكفاءة على ImageNet-21K متاحًا للجميع. من خلال مرحلة ما قبل المعالجة المخصصة، واستخدام البنية الهرمية لكلمة WordNet، ووضع خطة تدريب جديدة تُعرف بـ "الدالة التجزئية المعنى" (semantic softmax)، نُظهر أن نماذج مختلفة تستفيد بشكل كبير من التدريب المسبق على ImageNet-21K عبر العديد من المجموعات والمهام، بما في ذلك النماذج الصغيرة المُصممة للهواتف المحمولة. كما نُظهر أن أداءنا يتفوق على جميع الطرق السابقة للتدريب المسبق على ImageNet-21K، خصوصًا في النماذج الحديثة البارزة مثل ViT وMixer. يُعدُّ المسار المقترح للتدريب المسبق فعّالًا وسهل الوصول إليه، ويُنتج نتائج من الطراز الرائد (SoTA) قابلة للتكرار، باستخدام مجموعة بيانات متاحة للجمهور. يتوفر كود التدريب والنماذج المُدرَّبة مسبقًا على: https://github.com/Alibaba-MIIL/ImageNet21K

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار