منذ 8 أشهر

الملخص

يتم عادةً التعامل مع تقسيم الصور من خلال تدريب نموذج لمجموعة ثابتة من فئات الأشياء. إضافة فئات جديدة أو استعلامات أكثر تعقيدًا في وقت لاحق تكون مكلفة لأنها تتطلب إعادة تدريب النموذج على مجموعة بيانات تشمل هذه التعبيرات. هنا، نقترح نظامًا يمكنه إنشاء تقسيمات صورية بناءً على أي دعوات في وقت الاختبار. يمكن أن يكون الدعوة نصًا أو صورة. هذا النهج يمكّننا من إنشاء نموذج موحد (مُدرَّب مرة واحدة) لأربعة مهام تقسيم شائعة، والتي تأتي مع تحديات مختلفة: تقسيم التعبير المرجعي، التقسيم بدون تعلم سابق (Zero-shot Segmentation)، والتقسيم بمثال واحد (One-shot Segmentation). نعتمد على نموذج CLIP كأساس، ونقوم بتوسيعه بإضافة محول (Transformer) كمحوِّل فك رموز يتيح التنبؤ الكثيف. بعد التدريب على إصدار موسَّع من مجموعة بيانات PhraseCut، يقوم نظامنا بإنشاء خريطة تقسيم ثنائية للصورة بناءً على دعوة نصية حرة أو على صورة إضافية تعبر عن الاستعلام. نقوم بتحليل مختلف متغيرات الدعوات المستندة إلى الصور بالتفصيل. يسمح هذا الإدخال الهجين الجديد بالتكيف الديناميكي ليس فقط للمهام الثلاثة المذكورة أعلاه، ولكن لأي مهمة تقسيم ثنائية يمكن فيها صياغة استعلام نصي أو صوري.أخيرًا، وجدنا أن نظامنا يتكيَّف بشكل جيد مع الاستعلامات العامة التي تنطوي على القدرات أو الخصائص. الرمز البرمجي متاح على الرابط التالي: https://eckerlab.org/code/clipseg.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار