HyperAIHyperAI

Command Palette

Search for a command to run...

تقسيم الصورة باستخدام تعليمات النص والصورة

Lüddecke Timo ; Ecker Alexander S.

الملخص

يتم عادةً التعامل مع تقسيم الصور من خلال تدريب نموذج لمجموعة ثابتة من فئات الأشياء. إضافة فئات جديدة أو استعلامات أكثر تعقيدًا في وقت لاحق تكون مكلفة لأنها تتطلب إعادة تدريب النموذج على مجموعة بيانات تشمل هذه التعبيرات. هنا، نقترح نظامًا يمكنه إنشاء تقسيمات صورية بناءً على أي دعوات في وقت الاختبار. يمكن أن يكون الدعوة نصًا أو صورة. هذا النهج يمكّننا من إنشاء نموذج موحد (مُدرَّب مرة واحدة) لأربعة مهام تقسيم شائعة، والتي تأتي مع تحديات مختلفة: تقسيم التعبير المرجعي، التقسيم بدون تعلم سابق (Zero-shot Segmentation)، والتقسيم بمثال واحد (One-shot Segmentation). نعتمد على نموذج CLIP كأساس، ونقوم بتوسيعه بإضافة محول (Transformer) كمحوِّل فك رموز يتيح التنبؤ الكثيف. بعد التدريب على إصدار موسَّع من مجموعة بيانات PhraseCut، يقوم نظامنا بإنشاء خريطة تقسيم ثنائية للصورة بناءً على دعوة نصية حرة أو على صورة إضافية تعبر عن الاستعلام. نقوم بتحليل مختلف متغيرات الدعوات المستندة إلى الصور بالتفصيل. يسمح هذا الإدخال الهجين الجديد بالتكيف الديناميكي ليس فقط للمهام الثلاثة المذكورة أعلاه، ولكن لأي مهمة تقسيم ثنائية يمكن فيها صياغة استعلام نصي أو صوري.أخيرًا، وجدنا أن نظامنا يتكيَّف بشكل جيد مع الاستعلامات العامة التي تنطوي على القدرات أو الخصائص. الرمز البرمجي متاح على الرابط التالي: https://eckerlab.org/code/clipseg.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp