PuVAE: مُحَوِّل تلقائي متغير لتنقية الأمثلة المعادية

تُستخدم الشبكات العصبية العميقة على نطاق واسع وتظهر أداءً ممتازًا في العديد من المجالات. ومع ذلك، فهي عرضة لهجمات معادية ت妥ّر من خلال تطبيق اضطرابات مصممة بعناية على بيانات الإدخال، مما يقوض الشبكة أثناء مرحلة الاستدلال. رغم اقتراح عدة طرق دفاعية لمعالجة هجمات محددة، يمكن للطرق الهجومية الأخرى أن تتخطى هذه الآليات الدفاعية. لذلك، نقترح استخدام الطهران الراقي للشبكات الذاتية الترميز (Purifying Variational Autoencoder - PuVAE)، وهي طريقة لتطهير الأمثلة المعادية. تقوم الطريقة المقترحة بإزالة الاضطراب المعادي عن طريق إسقاط مثال معادي على متعدد الأسطح (manifold) لكل فئة، وتحديد أقرب إسقاط كعينة مطهرة. نوضح بالتجربة صلابة PuVAE ضد مجموعة متنوعة من أساليب الهجوم دون أي معرفة سابقة. في تجاربنا، أظهرت الطريقة المقترحة أداءً تنافسيًا مع أفضل الأساليب الدفاعية المعاصرة، وكانت سرعة الاستدلال فيها تقريبًا 130 مرة أسرع من سرعة Defense-GAN، وهو النموذج المطهر الرائد حاليًا.