HyperAIHyperAI
منذ 17 أيام

ربط المركّب بالواقعي: نحو تلوين صور عميقة نهائية إلى النهاية

Jizhizi Li, Jing Zhang, Stephen J. Maybank, Dacheng Tao
ربط المركّب بالواقعي: نحو تلوين صور عميقة نهائية إلى النهاية
الملخص

استخراج الخلفيات الدقيقة من الصور الطبيعية يُعد مفيدًا لعدة تطبيقات لاحقة مثل إنتاج الأفلام والواقع المعزز. ومع ذلك، فإن الخصائص الصوفية والتنوع الكبير في مظهر الخلفيات، مثل الحيوانات والصور الشخصية، يشكلان تحديًا أمام الطرق الحالية لاستخلاص الخلفيات (matting)، والتي عادةً ما تتطلب إدخالات إضافية من المستخدم مثل "ترماب" (trimap) أو خطوط مرسومة يدويًا (scribbles). لحل هذه المشكلات، ندرس الأدوار المميزة للسياق (الدلالات) والتفاصيل الدقيقة في استخلاص الخلفيات، ونُفكّك المهمة إلى نوعين متوازيين من المهام الفرعية: التصنيف السياقي عالي المستوى، واستخلاص التفاصيل الدقيقة للخلفية. بشكل خاص، نقترح شبكة جديدة تُسمى "شبكة استخلاص الخلفيات بالنظر والتركيز" (Glance and Focus Matting، GFM)، والتي تستخدم معالجًا مشتركًا (shared encoder) واثنين من معالجات فك الترميز (decoders) منفصلين، بهدف تعلم كلا المهمتين بشكل تعاوني لتحقيق استخلاص خلفيات طبيعي بنهج يعتمد على التدريب من البداية إلى النهاية (end-to-end). بالإضافة إلى ذلك، نظرًا لقيود الصور الطبيعية المتاحة في مهام استخلاص الخلفيات، غالبًا ما تعتمد الطرق السابقة على صور مركبة (composite images) للتدريب والتقييم، مما يؤدي إلى قدرة تعميم محدودة على الصور الواقعية. في هذه الورقة، نُجري تحليلًا شاملاً لمشكلة الفجوة بين المجال (domain gap) بين الصور المركبة والصور الواقعية، من خلال تحليل مفصل للاختلافات المختلفة بين الصور الخلفية والصورة الأمامية. ونجد أن مسار تركيب مُصمم بعناية يُسمى RSSN، والذي يهدف إلى تقليل هذه الاختلافات، يمكن أن يؤدي إلى نموذج أفضل يتمتع بقدرة تعميم ملحوظة. علاوةً على ذلك، نقدّم معيارًا (benchmark) يتضمن 2000 صورة حيوانات عالية الدقة من العالم الحقيقي، و10000 صورة شخصية، مع ماتات ألفا مُعلّمة يدويًا، بهدف توفير بيئة اختبار لقياس قدرة نماذج استخلاص الخلفيات على التعميم في الصور الواقعية. وقد أظهرت الدراسات التجريبية الشاملة أن GFM تتفوق على الطرق الرائدة في مجالها، وتفعّل تقليل خطأ التعميم بشكل فعّال. سيتم إصدار الشفرة (code) والبيانات (datasets) على الرابط: https://github.com/JizhiziLi/GFM.

ربط المركّب بالواقعي: نحو تلوين صور عميقة نهائية إلى النهاية | أحدث الأوراق البحثية | HyperAI