HyperAIHyperAI
منذ 11 أيام

دمج التعلم القياسي ورؤوس الانتباه لتحقيق تصنيف دقيق وكفؤ للصور متعددة التصنيفات

Kirill Prokofiev, Vladislav Sovrasov
دمج التعلم القياسي ورؤوس الانتباه لتحقيق تصنيف دقيق وكفؤ للصور متعددة التصنيفات
الملخص

يسمح التصنيف الصوتي متعدد التصنيفات بتوقع مجموعة من التصنيفات من صورة معطاة. على عكس التصنيف متعدد الفئات، حيث يتم تعيين تصنيف واحد فقط لكل صورة، فإن هذا الإطار يمكن تطبيقه على نطاق أوسع من التطبيقات. في هذا العمل، نعيد النظر في طريقتين شائعتين لتصنيف الصور متعدد التصنيفات: فروع الرؤوس المستندة إلى المحولات (transformers) وفروع معالجة رسومات علاقات التصنيفات. وعلى الرغم من أن فروع المحولات تُعتبر تحقق نتائج أفضل من الفروع المستندة إلى الرسومات، فإننا نجادل بأن بوجود استراتيجية تدريب مناسبة، يمكن لطرق الرسومات أن تُظهر انخفاضًا ضئيلًا في الدقة، مع استهلاك موارد حوسبة أقل أثناء الاستدلال. في استراتيجيتنا للتدريب، بدلًا من استخدام خسارة غير متماثلة (ASL)، التي تُعد المعيار الفعلي الافتراضي لتصنيف الصور متعدد التصنيفات، نقدم نسخة معدلة تعتمد على التعلم القياسي (metric learning). في كل مشكلة فرعية ثنائية التصنيف، تعمل هذه الطريقة على متجهات مميزة مُعيّنة بالـ $L_2$ المستمدة من الهيكل الأساسي (backbone)، وتحفّز على تكبير الزوايا بين التمثيلات المعيارية للعينات الموجبة والسلبية قدر الإمكان. هذا يؤدي إلى تحسين قدرة التمييز مقارنةً بخسارة التباديل الثنائية (binary cross entropy) عند استخدام متجهات غير معيّنة. وباستخدام خسارة واستراتيجية تدريب مقترحة، نحقق نتائج من الطراز الأول (SOTA) بين الطرق الأحادية الوسيلة (single modality) على معايير تصنيف الصور متعدد التصنيفات الشائعة مثل MS-COCO وPASCAL-VOC وNUS-Wide وVisual Genome 500. يُتاح كود المصدر الخاص بمنطقتنا كجزء من ملحقات التدريب OpenVINO: https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel

دمج التعلم القياسي ورؤوس الانتباه لتحقيق تصنيف دقيق وكفؤ للصور متعددة التصنيفات | أحدث الأوراق البحثية | HyperAI