Command Palette
Search for a command to run...
إعادة التفكير في التقطيع الصوتي للصورة مع الحفاظ على الخصوصية
إعادة التفكير في التقطيع الصوتي للصورة مع الحفاظ على الخصوصية
Sihan Ma Jizhizi Li Jing Zhang He Zhang Dacheng Tao
الملخص
في الآونة الأخيرة، ظهر قلق متزايد بشأن مسألة الخصوصية الناتجة عن المعلومات القابلة للتحديد في التعلم الآلي. ومع ذلك، كانت جميع الطرق السابقة لاستخلاص الصور الشخصية (Portrait Matting) تعتمد على صور شخصية قابلة للتحديد. لسد هذه الفجوة، نقدّم P3M-10k، وهو أول معيار كبير ومُعَمَّى للخصوصية (Privacy-Preserving) في استخلاص الصور الشخصية (P3M). يتكوّن P3M-10k من 10,421 صورة شخصية عالية الدقة ذات وجوه مُبَلَّلة (face-blurred) إلى جانب أقنعة ألفا عالية الجودة، مما يمكّننا من تقييم منهجي لكل من الطرق القائمة على التريمايب (trimap-free) والطرق القائمة على التريمايب (trimap-based)، والحصول على نتائج مفيدة حول قدرة النماذج على التعميم في بيئة التدريب المُحَفِّظة للخصوصية (PPT). كما نقدّم نموذجًا موحدًا لاستخلاص الصور يُسمى P3M-Net، وهو متوافق مع كلا نوعي الخلفيات: الشبكات العصبية التلافيفية (CNN) والمحولات (transformer). ولتقليل فجوة الأداء بين المجالات المختلفة في بيئة PPT، طوّرنا استراتيجية بسيطة ولكنها فعّالة تُسمى "نسخ ولصق" (P3M-CP)، والتي تستمد معلومات الوجه من صور مشهورين متاحة للعامة، وتدفع الشبكة لإعادة استرجاع السياق الوجهي على مستوى البيانات وعلى مستوى الميزات. أظهرت التجارب الواسعة على P3M-10k والمعاير العامة تفوق P3M-Net على الطرق الرائدة حاليًا، وفعالية P3M-CP في تحسين قدرة التعميم عبر المجالات، مما يدل على الأهمية الكبيرة لـ P3M بالنسبة للبحث المستقبلي والتطبيقات الواقعية.