HyperAIHyperAI
منذ 2 أشهر

MODNet: تفتيح الصور الشخصية في الوقت الفعلي بدون خريطة ثلاثية الأبعاد عبر تحليل الهدف

Zhanghan Ke; Jiayu Sun; Kaican Li; Qiong Yan; Rynson W.H. Lau
MODNet: تفتيح الصور الشخصية في الوقت الفعلي بدون خريطة ثلاثية الأبعاد عبر تحليل الهدف
الملخص

تتطلب طرق التقطيع الحالية للصور الشخصية إما مدخلات مساعدة باهظة الثمن أو تتضمن مراحل متعددة ذات تكلفة حسابية عالية، مما يجعلها أقل ملاءمة لتطبيقات الوقت الحقيقي. في هذا البحث، نقدم شبكة فك الهدف الخفيفة (MODNet) للتقطيع الشخصي في الوقت الحقيقي باستخدام صورة واحدة كمدخل. الفكرة الرئيسية وراء تصميمنا الفعال هي تحسين سلسلة من الأهداف الجزئية بشكل متزامن عبر قيود واضحة. بالإضافة إلى ذلك، تشمل MODNet تقنيتين جديدتين لتحسين كفاءة النموذج ومتانته. أولاً، تم تقديم وحدة التجميع المكاني الشعري الفعالة (e-ASPP) لدمج الخصائص متعددة المقاييس لتقييم المعنى. ثانياً، تم اقتراح استراتيجية التناسق الذاتي للأهداف الجزئية (SOC) لتكييف MODNet مع البيانات الواقعية لمعالجة مشكلة الانحراف النطاقي التي تواجهها الطرق الخالية من trimap بشكل شائع. يمكن تدريب MODNet بسهولة بطريقة شاملة من البداية إلى النهاية. إنها أسرع بكثير من الطرق المعاصرة وتعمل بمعدل 67 إطارًا في الثانية على بطاقة رسوميات 1080Ti GPU. أظهرت التجارب أن MODNet تتفوق على الطرق السابقة الخالية من trimap بمقدار كبير في كل من مجموعة بيانات Adobe Matting وفي مقاييس الصور الشخصية المصورة بدقة (PPM-100) التي اقترحناها. علاوة على ذلك، حققت MODNet نتائج ملحوظة في الصور والفيديوهات اليومية. يتوفر رمزنا ونماذجنا على الرابط https://github.com/ZHKKKe/MODNet، وقد تم إطلاق مقاييس PPM-100 على الرابط https://github.com/ZHKKKe/PPM.注释:- "trimap" 是一个专有名词,在阿拉伯语中通常保留为英文,因此在文中直接使用了英文。- "Atrous Spatial Pyramid Pooling" 翻译为 "التجميع المكاني الشعري",这是该术语在阿拉伯语中的通用翻译。- 其他专业术语如 "frames per second" 和 "GPU" 在阿拉伯语中也有通用的翻译方法,分别翻译为 "إطارًا في الثانية" 和 "بطاقة رسوميات".