HyperAIHyperAI
منذ 2 أشهر

تقسيم الصورة باستخدام تعليمات النص والصورة

Lüddecke, Timo ; Ecker, Alexander S.
تقسيم الصورة باستخدام تعليمات النص والصورة
الملخص

يتم عادةً التعامل مع تقسيم الصور من خلال تدريب نموذج لمجموعة ثابتة من فئات الأشياء. إضافة فئات جديدة أو استعلامات أكثر تعقيدًا في وقت لاحق تكون مكلفة لأنها تتطلب إعادة تدريب النموذج على مجموعة بيانات تشمل هذه التعبيرات. هنا، نقترح نظامًا يمكنه إنشاء تقسيمات صورية بناءً على أي دعوات في وقت الاختبار. يمكن أن يكون الدعوة نصًا أو صورة. هذا النهج يمكّننا من إنشاء نموذج موحد (مُدرَّب مرة واحدة) لأربعة مهام تقسيم شائعة، والتي تأتي مع تحديات مختلفة: تقسيم التعبير المرجعي، التقسيم بدون تعلم سابق (Zero-shot Segmentation)، والتقسيم بمثال واحد (One-shot Segmentation). نعتمد على نموذج CLIP كأساس، ونقوم بتوسيعه بإضافة محول (Transformer) كمحوِّل فك رموز يتيح التنبؤ الكثيف. بعد التدريب على إصدار موسَّع من مجموعة بيانات PhraseCut، يقوم نظامنا بإنشاء خريطة تقسيم ثنائية للصورة بناءً على دعوة نصية حرة أو على صورة إضافية تعبر عن الاستعلام. نقوم بتحليل مختلف متغيرات الدعوات المستندة إلى الصور بالتفصيل. يسمح هذا الإدخال الهجين الجديد بالتكيف الديناميكي ليس فقط للمهام الثلاثة المذكورة أعلاه، ولكن لأي مهمة تقسيم ثنائية يمكن فيها صياغة استعلام نصي أو صوري.أخيرًا، وجدنا أن نظامنا يتكيَّف بشكل جيد مع الاستعلامات العامة التي تنطوي على القدرات أو الخصائص. الرمز البرمجي متاح على الرابط التالي: https://eckerlab.org/code/clipseg.

تقسيم الصورة باستخدام تعليمات النص والصورة | أحدث الأوراق البحثية | HyperAI