HyperAIHyperAI
منذ 17 أيام

الاستخلاص التلقائي العميق للصورة الطبيعية ذات الخلفية المُتعددة

Jizhizi Li, Jing Zhang, Dacheng Tao
الاستخلاص التلقائي العميق للصورة الطبيعية ذات الخلفية المُتعددة
الملخص

يُشير التمويه التلقائي للصور (AIM) إلى تقدير الجزء الأمامي الناعم من صورة طبيعية عشوائية دون الحاجة إلى إدخال مساعد مثل "الترماب" (trimap)، وهو ما يُعد مفيدًا في تحرير الصور. حاولت الطرق السابقة تعلم السمات الدلالية لمساعدة عملية التمويه، لكنها كانت محدودة بالصور التي تحتوي على أجزاء أمامية بارزة وشديدة الكثافة مثل البشر والحيوانات. في هذه الورقة، نستعرض الصعوبات الناتجة عن تمديد هذه الطرق إلى الصور الطبيعية التي تحتوي على أجزاء أمامية شفافة أو دقيقة بارزة، أو أجزاء أمامية غير بارزة. ولحل هذه المشكلة، نقترح شبكة تمويه من نوع "نهاية إلى نهاية" (end-to-end) جديدة، والتي يمكنها التنبؤ بـ"ترماب عام" (generalized trimap) لأي صورة من الأنواع المذكورة أعلاه، كتمثيل دلالي موحد. وفي الوقت نفسه، توجه السمات الدلالية المُتعلمة الشبكة إلى التركيز على مناطق الانتقال من خلال آلية انتباه (attention mechanism). كما قمنا ببناء مجموعة اختبار تُسمى AIM-500، والتي تتضمن 500 صورة طبيعية متنوعة تغطي جميع الأنواع، مع تسميات يدويًا لـ"الألفا المات" (alpha mattes)، مما يجعل من الممكن تقييم قدرة نماذج AIM على التعميم. وأظهرت نتائج التجارب أن الشبكة التي تم تدريبها على مجموعات بيانات تمويه مركبة متوفرة تتفوق على الطرق الحالية من حيث الأداء الموضوعي والذاتي. ويتوفر الكود المصدري والبيانات على الرابط التالي: https://github.com/JizhiziLi/AIM.

الاستخلاص التلقائي العميق للصورة الطبيعية ذات الخلفية المُتعددة | أحدث الأوراق البحثية | HyperAI