كل الرموز مهمة: تسمية الرموز لتدريب نماذج الرؤية المتقدمة بشكل أفضل

في هذا البحث، نقدم تسمية الرموز -- هدف تدريبي جديد لتدريب متحولات الرؤية عالية الأداء (ViTs). على عكس الهدف التدريبي القياسي لمتحولات الرؤية الذي يحسب خسارة التصنيف على رمز فئة قابل للتدريب إضافي، فإن المقترح لدينا يستفيد من جميع رموز الأجزاء الصورية لحساب الخسارة التدريبية بطريقة كثيفة.بشكل خاص، تقوم تسمية الرموز بإعادة صياغة مشكلة تصنيف الصور إلى عدة مشاكل اعتراف على مستوى الرمز وتعين لكل رمز جزء صوري إشرافًا فرديًا محددًا بموقعه يتم إنشاؤه بواسطة مصحح آلي.تظهر التجارب أن تسمية الرموز يمكن أن تحسن بشكل واضح وثابت أداء مختلف نماذج ViT عبر طيف واسع. كمثال، بالنسبة لمتحول رؤية بحجم 26 مليون معلمة قابلة للتعلم، يمكن للنموذج تحقيق دقة تصنيف 84.4٪ في المرتبة الأولى على ImageNet مع استخدام تسمية الرموز. يمكن زيادة هذه النتيجة إلى 86.4٪ عن طريق توسيع حجم النموذج قليلاً إلى 150 مليون، مما يجعله أصغر نموذج بين النماذج السابقة (250 مليون+) التي حققت دقة تصنيف 86٪.كما نوضح أن تسمية الرموز يمكن أن تحسن بشكل واضح قدرة النماذج المتدربة مسبقًا على التعميم في المهام الثانوية ذات التنبؤ الكثيف، مثل تقسيم الصور الدلالي. سيتم جعل شفرتنا المصدر وكافة تفاصيل التدريب متاحة للجمهور على الرابط: https://github.com/zihangJiang/TokenLabeling.