
초록
실제 환경에서 기계학습 모델을 안전하게 배포하기 위한 핵심 과제 중 하나는 분포 외(out-of-distribution, OOD) 입력을 탐지하는 것이다. 기존의 방법들은 주로 과도한 파라미터화된 가중치 공간에서 도출된 OOD 점수에 의존하지만, 스파르스화(sparsification)의 역할은 거의 간과되어 왔다. 본 논문에서는 불필요한 가중치와 뉴런에 의존하는 것이 OOD 탐지의 취약성에 직접적인 원인을 제공함을 밝힌다. 이러한 문제를 완화하기 위해, 우리는 DICE(Detecting Incongruent and Contradictory Examples)라는 스파르스화 기반의 OOD 탐지 프레임워크를 제안한다. 본 연구의 핵심 아이디어는 가중치의 기여도 기준으로 가중치를 순위 매기고, 가장 중요한 가중치만을 선택적으로 활용하여 OOD 탐지를 위한 출력을 도출하는 것이다. 우리는 경험적 및 이론적 관점에서 DICE가 OOD 탐지 성능을 향상시키는 메커니즘을 체계적으로 분석하고 설명한다. 노이즈 신호를 제거함으로써 DICE는 OOD 데이터에 대한 출력 분산을 증명 가능한 방식으로 감소시켜, 더 날카로운 출력 분포와 ID 데이터와의 강한 분리 가능성을 확보한다. 다양한 벤치마크에서 스파르스화 기반 OOD 탐지의 효과를 입증하고, 경쟁 수준의 성능을 확보하였다.