العينة الصفرية لتمثيلات قابلة للتفسير والعدالة

نُقترح تعلُّم تمثيلات غير تابِعة (Invariant Representations) في مجال البيانات، لتحقيق الشفافية في العدالة الخوارزمية. فالاستقرار (Invariance) يُشير إلى انتقائية الترابطات عالية المستوى والمرتبطة بالفعل، بالنسبة لتسميات الفئة، ومقاومة الترابطات غير المرتبطة بخصائص محمية مثل العرق أو الجنس. نقدّم إعدادًا غير بسيط (non-trivial setup) حيث يُظهر مجموعة التدريب انحيازًا قويًا بحيث تصبح تسميات الفئة غير ذات صلة، ولا يمكن التمييز بين الترابطات الوهمية (spurious correlations). ولحل هذه المشكلة، نُقدّم نموذجًا مدرّبًا بطريقة مُعاكسة (adversarially trained model) مع إجراء عينة من الصفر (null-sampling procedure) لإنتاج تمثيلات غير تابعة في مجال البيانات. ولتمكين فصل العناصر (disentanglement)، نستخدم مجموعة ممثلة مُعلّمة جزئيًا. وبوضع هذه التمثيلات داخل مجال البيانات، يصبح من السهل على المُدققين البشريين مراجعة التغيرات التي يقوم بها النموذج. ونُظهر فعالية طريقتنا على كلا نوعي البيانات: صورية (image) وجدولية (tabular)، من خلال مجموعات بيانات Coloured MNIST وCelebA والـAdult.