Command Palette
Search for a command to run...
التدريب المسبق على ImageNet-21K للعامة
التدريب المسبق على ImageNet-21K للعامة
Tal Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor
الملخص
يُعدُّ ImageNet-1K المجموعة الأساسية للتدريب المسبق للنماذج العميقة في مهام الرؤية الحاسوبية. بينما تُستخدم مجموعة بيانات ImageNet-21K، التي تتميز بحجمها الأكبر وتعدد محتواها، بشكل أقل تكرارًا في التدريب المسبق، وذلك أساسًا بسبب تعقيدها وقلة وصولها وتقديرها غير الكافي لقيمتها المضافة. يهدف هذا البحث إلى سد هذه الفجوة، وجعل التدريب المسبق عالي الجودة والكفاءة على ImageNet-21K متاحًا للجميع. من خلال مرحلة ما قبل المعالجة المخصصة، واستخدام البنية الهرمية لكلمة WordNet، ووضع خطة تدريب جديدة تُعرف بـ "الدالة التجزئية المعنى" (semantic softmax)، نُظهر أن نماذج مختلفة تستفيد بشكل كبير من التدريب المسبق على ImageNet-21K عبر العديد من المجموعات والمهام، بما في ذلك النماذج الصغيرة المُصممة للهواتف المحمولة. كما نُظهر أن أداءنا يتفوق على جميع الطرق السابقة للتدريب المسبق على ImageNet-21K، خصوصًا في النماذج الحديثة البارزة مثل ViT وMixer. يُعدُّ المسار المقترح للتدريب المسبق فعّالًا وسهل الوصول إليه، ويُنتج نتائج من الطراز الرائد (SoTA) قابلة للتكرار، باستخدام مجموعة بيانات متاحة للجمهور. يتوفر كود التدريب والنماذج المُدرَّبة مسبقًا على: https://github.com/Alibaba-MIIL/ImageNet21K