17日前

解釈可能性と公平性を兼ね備えた表現のためのヌルサンプリング

Thomas Kehrenberg, Myles Bartlett, Oliver Thomas, Novi Quadrianto
解釈可能性と公平性を兼ね備えた表現のためのヌルサンプリング
要約

本研究では、アルゴリズムの公平性における解釈可能性を実現するために、データドメイン内で不変表現(invariant representations)を学習することを提案する。不変性とは、クラスラベルの注釈に対して高レベルかつ関連性の高い相関を選び取り、レースや性別といった保護対象特性との無関係な相関に対しては堅牢性を持つことを意味する。本研究では、訓練データセットに強いバイアスが存在する非自明な設定を導入し、その結果、クラスラベルの注釈が実質的に無関係となり、誤った相関(spurious correlations)と本質的な相関を区別できなくなる状況を想定する。この問題に対処するため、データドメイン内に不変表現を生成する目的で、ノルムサンプリング(null-sampling)手順を用いた敵対的訓練モデルを提案する。表現の分離(disentanglement)を可能にするために、部分的にラベル付けされた代表的データセットを用いる。表現をデータドメインに配置することで、モデルが加えた変更が人間の監査者によって容易に検証可能となる。本手法の有効性を、画像データセット(Colored MNIST)、CelebA、およびAdultデータセットの3つの異なるデータセット上で実証した。

解釈可能性と公平性を兼ね備えた表現のためのヌルサンプリング | 最新論文 | HyperAI超神経