HyperAIHyperAI
منذ 2 أشهر

TagCLIP: إطار محلي إلى عالمي لتعزيز تصنيف الكلمات المتعددة المفتوحة لـ CLIP دون تدريب

Yuqi Lin; Minghao Chen; Kaipeng Zhang; Hengjia Li; Mingming Li; Zheng Yang; Dongqin Lv; Binbin Lin; Haifeng Liu; Deng Cai
TagCLIP: إطار محلي إلى عالمي لتعزيز تصنيف الكلمات المتعددة المفتوحة لـ CLIP دون تدريب
الملخص

أثبتت تقنية التدريب المقارن للغة والصورة (CLIP) قدرات مثيرة للإعجاب في تصنيف المفردات المفتوحة. يتم تدريب الرمز الفئوي في مُشفر الصورة على التقاط الخصائص العالمية لتمييز الوصف النصي المختلف تحت إشراف خسارة التباين، مما يجعله فعالًا للغاية في تصنيف العلامة الواحدة. ومع ذلك، فإن أدائه ضعيف على مجموعات البيانات ذات العلامات المتعددة لأن الخصائص العالمية تميل إلى أن تكون محكومة بالفئة الأكثر بروزًا، وطبيعة التباين في عملية softmax تزيد من هذا الأمر. في هذه الدراسة، نلاحظ أن نتائج تصنيف العلامات المتعددة تعتمد بشكل كبير على الخصائص المحلية المميزة ولكنها تُغفل من قبل CLIP. نتيجة لذلك، نقوم بتفكيك الحفاظ على المعلومات الفضائية حسب القطعة في CLIP واقترحنا إطار عملًا ينتقل من المحلي إلى العالمي للحصول على علامات الصور. يتكون الإطار من ثلاث خطوات: (1) تصنيف المستوى القطعي للحصول على درجات خشنة؛ (2) وحدة تحسين الانتباه ثنائي القناع (DMAR) لتصحيح الدرجات الخشنة؛ (3) وحدة إعادة تحديد الفئات (CWR) لتعويض التنبؤات من وجهة نظر عالمية. يعتمد هذا الإطار فقط على CLIP الثابت ويحسن بشكل كبير أداءه في تصنيف العلامات المتعددة على مجموعة متنوعة من مقاييس الأداء دون الحاجة إلى تدريب خاص بالمجموعة. بالإضافة إلى ذلك، لتقييم جودة وعمليّة العلامات المُنتجة بشكل شامل، نوسع نطاق تطبيقها إلى مهمة ما بعد السيل، أي تقسيم الدلالة الضعيف الإشراف (WSSS) باستخدام العلامات المنتجة كعلامات صورية مستوية. أظهرت التجارب أن هذا النمط الذي يقوم بالتصنيف ثم التقسيم يتفوق بشكل كبير على طرق التقسيم الأخرى التي لا تتطلب إشرافًا ويؤكد فعالية العلامات المنتجة. رمز البرمجيات الخاص بنا متاح على https://github.com/linyq2117/TagCLIP.

TagCLIP: إطار محلي إلى عالمي لتعزيز تصنيف الكلمات المتعددة المفتوحة لـ CLIP دون تدريب | أحدث الأوراق البحثية | HyperAI