إشارة إلى صورة التحديد الدقيق (Image Matting)

يختلف التحديد الدقيق للصورة (Image Matting) التقليدي، الذي يتطلب إما رسومات يحددها المستخدم أو خريطة حدودية لاستخراج كائن مقدمة معين، أو يقوم باستخراج جميع الكائنات المقدمة في الصورة دون تمييز، عن مهمة جديدة نقدمها في هذا البحث تحت اسم تحديد الصورة المرجعي (Referring Image Matting - RIM)، والتي تهدف إلى استخراج طبقة ألفا الدقيقة للكائن المحدد الذي يتطابق بشكل أفضل مع الوصف اللغوي الطبيعي المعطى، مما يتيح تعليمات أكثر طبيعية وبساطة لتحديد الصورة.أولاً، قمنا بإنشاء مجموعة بيانات واسعة النطاق وصعبة تسمى RefMatte من خلال تصميم محرك تركيب صور شامل وجهاز توليد تعبيرات يعمل بشكل آلي لإنتاج صور عالية الجودة مع سمات نصية متنوعة بناءً على مجموعات البيانات العامة. تتكون RefMatte من 230 فئة كائن، و47,500 صورة، و118,749 كيان منطقة-تعبير، و474,996 تعبيرًا. بالإضافة إلى ذلك، قمنا ببناء مجموعة اختبار حقيقية تتضمن 100 صورة طبيعية بدقة عالية وملاحظات يدوية للعبارات المعقدة لتقييم قدرات التعميم خارج المجال لمETHODS RIM.علاوة على ذلك، نقدم طريقة أساسية جديدة تسمى CLIPMat لـ RIM، والتي تشمل دعوة مدمجة بالسياق، وظهور دلالي مدفوع بالنص، واستخراج التفاصيل متعدد المستويات. أثبتت التجارب الواسعة على RefMatte في كل من الإعدادات الكلامية والتعبيرية أن CLIPMat تتفوق على الطرق الممثلة. نأمل أن يقدم هذا العمل رؤى جديدة في مجال تحديد الصورة وأن يشجع المزيد من الدراسات اللاحقة. يمكن الوصول إلى مجموعة البيانات والكود والنماذج عبر الرابط: https://github.com/JizhiziLi/RIM.