HyperAIHyperAI
منذ 2 أشهر

التحويلات لا تموت بسهولة: تقسيم المفردات المفتوحة باستخدام تحويل واحد مجمد من CLIP

Qihang Yu; Ju He; Xueqing Deng; Xiaohui Shen; Liang-Chieh Chen
التحويلات لا تموت بسهولة: تقسيم المفردات المفتوحة باستخدام تحويل واحد مجمد من CLIP
الملخص

التفصيل المفتوح للمفردات هو مهمة صعبة تتطلب تجزئة وتعرف الأشياء من مجموعة مفتوحة من الفئات. أحد الطرق لمعالجة هذا التحدي هو الاستفادة من النماذج متعددة الوسائط، مثل نموذج CLIP، لتوفير خصائص الصور والنصوص في فضاء تمثيلي مشترك، مما يربط الفجوة بين التعرف على المفردات المغلقة والمفتوحة. لذلك، غالباً ما تعتمد الأساليب الحالية إطاراً ثنائياً للتعامل مع المشكلة، حيث تمر الإدخالات أولاً عبر مولد الأقنعة ثم عبر نموذج CLIP مع الأقنعة المتوقعة. يتضمن هذا العملية استخراج الخصائص من الصور عدة مرات، وهو ما يمكن أن يكون غير فعال وغير كفؤ.بالمقابل، نقترح بناء كل شيء ضمن إطار واحد باستخدام عمودي CLIP التوافقي الثابت (Frozen Convolutional CLIP)، والذي لا يبسط فقط خط الأنابيب الثنائي الحالي بشكل كبير، بل يحقق أيضاً توازناً أفضل بين الدقة والتكلفة. يستفيد النموذج المقترح FC-CLIP من الملاحظات التالية: العمودي الثابت لـ CLIP يحافظ على قدرة التصنيف المفتوح للمفردات ويمكنه أيضاً أن يعمل كمولد أقنعة قوي، وعمودي CLIP التوافقي يتميز بقدرته على التعامل بشكل جيد مع دقة إدخال أكبر من تلك المستخدمة أثناء التدريب الأولي للصور والنصوص بالمقارنة.عند التدريب على بيانات COCO البانورامية فقط واختبارها بطريقة بدون تصوير (zero-shot)، حقق FC-CLIP درجة PQ 26.8 و AP 16.8 و mIoU 34.1 على مجموعة ADE20K، ودرجة PQ 18.2 و mIoU 27.9 على مجموعة Mapillary Vistas، ودرجة PQ 44.0 و AP 26.8 و mIoU 56.2 على مجموعة Cityscapes، مما يتفوق على التقنيات السابقة بمقدار +4.2 PQ و +2.4 AP و +4.2 mIoU على ADE20K، وبمقدار +4.0 PQ على Mapillary Vistas، وبمقدار +20.1 PQ على Cityscapes.بالإضافة إلى ذلك,FC-CLIP يتميز بسرعة زمنية للتدريب والاختبار تبلغ 7.5 مرة و 6.6 مرة أسرع من التقنية السابقة نفسها، مع استخدام 5.9 مرة أقل عددًا من المعالم (parameters). كما أن FC-CLIP قد حدد مستوى الأداء الرائد الجديد في مختلف مجموعات البيانات الخاصة بالتفصيل الدلالي المفتوح للمفردات.الكود متاح في: https://github.com/bytedance/fc-clip

التحويلات لا تموت بسهولة: تقسيم المفردات المفتوحة باستخدام تحويل واحد مجمد من CLIP | أحدث الأوراق البحثية | HyperAI