HyperAIHyperAI

Command Palette

Search for a command to run...

التحويلات لا تموت بسهولة: تقسيم المفردات المفتوحة باستخدام تحويل واحد مجمد من CLIP

Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen

الملخص

التفصيل المفتوح للمفردات هو مهمة صعبة تتطلب تجزئة وتعرف الأشياء من مجموعة مفتوحة من الفئات. أحد الطرق لمعالجة هذا التحدي هو الاستفادة من النماذج متعددة الوسائط، مثل نموذج CLIP، لتوفير خصائص الصور والنصوص في فضاء تمثيلي مشترك، مما يربط الفجوة بين التعرف على المفردات المغلقة والمفتوحة. لذلك، غالباً ما تعتمد الأساليب الحالية إطاراً ثنائياً للتعامل مع المشكلة، حيث تمر الإدخالات أولاً عبر مولد الأقنعة ثم عبر نموذج CLIP مع الأقنعة المتوقعة. يتضمن هذا العملية استخراج الخصائص من الصور عدة مرات، وهو ما يمكن أن يكون غير فعال وغير كفؤ.بالمقابل، نقترح بناء كل شيء ضمن إطار واحد باستخدام عمودي CLIP التوافقي الثابت (Frozen Convolutional CLIP)، والذي لا يبسط فقط خط الأنابيب الثنائي الحالي بشكل كبير، بل يحقق أيضاً توازناً أفضل بين الدقة والتكلفة. يستفيد النموذج المقترح FC-CLIP من الملاحظات التالية: العمودي الثابت لـ CLIP يحافظ على قدرة التصنيف المفتوح للمفردات ويمكنه أيضاً أن يعمل كمولد أقنعة قوي، وعمودي CLIP التوافقي يتميز بقدرته على التعامل بشكل جيد مع دقة إدخال أكبر من تلك المستخدمة أثناء التدريب الأولي للصور والنصوص بالمقارنة.عند التدريب على بيانات COCO البانورامية فقط واختبارها بطريقة بدون تصوير (zero-shot)، حقق FC-CLIP درجة PQ 26.8 و AP 16.8 و mIoU 34.1 على مجموعة ADE20K، ودرجة PQ 18.2 و mIoU 27.9 على مجموعة Mapillary Vistas، ودرجة PQ 44.0 و AP 26.8 و mIoU 56.2 على مجموعة Cityscapes، مما يتفوق على التقنيات السابقة بمقدار +4.2 PQ و +2.4 AP و +4.2 mIoU على ADE20K، وبمقدار +4.0 PQ على Mapillary Vistas، وبمقدار +20.1 PQ على Cityscapes.بالإضافة إلى ذلك,FC-CLIP يتميز بسرعة زمنية للتدريب والاختبار تبلغ 7.5 مرة و 6.6 مرة أسرع من التقنية السابقة نفسها، مع استخدام 5.9 مرة أقل عددًا من المعالم (parameters). كما أن FC-CLIP قد حدد مستوى الأداء الرائد الجديد في مختلف مجموعات البيانات الخاصة بالتفصيل الدلالي المفتوح للمفردات.الكود متاح في: https://github.com/bytedance/fc-clip


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp