17일 전

해당 표현의 해석 및 공정성 확보를 위한 널 샘플링

Thomas Kehrenberg, Myles Bartlett, Oliver Thomas, Novi Quadrianto
해당 표현의 해석 및 공정성 확보를 위한 널 샘플링
초록

우리는 알고리즘 공정성에서 해석 가능성(interpretability)을 달성하기 위해 데이터 도메인 내에서 불변 표현(invariant representations)을 학습하는 방안을 제안한다. 불변성(invariance)은 클래스 레이블 annotation에 관련된 고수준의 중요한 상관관계에 대해 선택적일 뿐만 아니라, 인종이나 성별과 같은 보호받는 특성과 무관한 상관관계에 대해 강건함을 의미한다. 본 연구에서는 학습 데이터셋이 강한 편향을 보이며, 클래스 레이블 annotation이 무의미하고, 사소한 상관관계(spurious correlations)를 구분할 수 없는 비트레이드오프(non-trivial)한 설정을 도입한다. 이 문제를 해결하기 위해, 데이터 도메인 내에서 불변 표현을 생성하기 위해 null-샘플링(null-sampling) 절차를 활용한 적대적 훈련(adversarially trained) 모델을 제안한다. 표현의 분리(disentanglement)를 가능하게 하기 위해 부분적으로 레이블이 부여된 대표 집합을 사용한다. 표현을 데이터 도메인 내에 위치시킴으로써, 모델이 가한 변화가 인간 감사자들에 의해 쉽게 검토할 수 있게 된다. 제안한 방법의 효과성을 이미지 데이터셋(Colored MNIST, CelebA)과 표 형식 데이터셋(Adult 데이터셋) 모두에서 검증하였다.

해당 표현의 해석 및 공정성 확보를 위한 널 샘플링 | 최신 연구 논문 | HyperAI초신경