MultiGrain: تمثيل صور موحد للتصنيفات والحالات

تعد MultiGrain معمارية شبكة تنتج تمثيلات متجهية مضغوطة مناسبة لكل من تصنيف الصور واسترجاع الأشياء الخاصة. تعتمد على جذع تصنيف قياسي. ينتج الجزء العلوي من الشبكة غرزًا (embedding) يحتوي على معلومات خشنة ودقيقة، بحيث يمكن التعرف على الصور بناءً على فئة الكائن، أو الكائن الخاص، أو إذا كانت نسخًا مشوهة. تدريبنا المشترك بسيط: نقوم بتصغير خسارة التصنيف المتقاطعة وخسارة الترتيب التي تحدد ما إذا كانت صورتان متطابقتين حتى مع زيادة البيانات، دون الحاجة إلى علامات إضافية. أحد المكونات الرئيسية لـ MultiGrain هو طبقة التجميع (pooling layer) التي تستفيد من الصور ذات الدقة العالية باستخدام شبكة تم تدريبها بدقة أقل.عند استخدام الغرزات (embeddings) المُتعلمة في تصنيف خطي، توفر دقة تصنيف متقدمة على أحدث التقنيات. على سبيل المثال، نحصل على دقة تصنيف 79.4% في المرتبة الأولى باستخدام ResNet-50 التي تم تعلمها على Imagenet، وهو تحسن بنسبة 1.8% مطلقة مقارنة بطريقة AutoAugment. عند المقارنة مع تشابه الجيب تمامًا (cosine similarity)، فإن نفس الغرزات (embeddings) تؤدي بنفس مستوى أحدث التقنيات لاسترجاع الصور عند الدقائق المعتدلة.