17일 전

희소 개념 버블넥 모델: 대비 학습에서의 Gumbel 기법

Andrei Semenov, Vladimir Ivanov, Aleksandr Beznosikov, Alexander Gasnikov
희소 개념 버블넥 모델: 대비 학습에서의 Gumbel 기법
초록

우리는 개념 버블넥 모델(Concept Bottleneck Models, CBMs)을 활용한 설명 가능한 분류에 대한 새로운 아키텍처와 방법을 제안한다. 현재 최고 수준의 이미지 분류 기술은 블랙박스 방식으로 작동하지만, 해석 가능한 결과를 제공할 수 있는 모델에 대한 수요가 점점 증가하고 있다. 이러한 모델들은 일반적으로 특정 타겟 인스턴스에 대한 추가적인 설명, 즉 '개념(concepts)'을 활용하여 클래스 레이블의 분포를 예측하도록 학습한다. 그러나 기존의 버블넥 기법은 여러 가지 한계를 가지고 있다. 예를 들어, 표준 모델에 비해 정확도가 낮으며, CBM을 활용하기 위해 추가적인 개념 세트가 필요하다는 점이다. 본 연구에서는 사전 훈련된 다중 모달 인코더와 새로운 CLIP 유사 아키텍처로부터 개념 버블넥 모델을 생성할 수 있는 프레임워크를 제시한다. 새로운 유형의 레이어인 개념 버블넥 레이어(Concept Bottleneck Layers)를 도입함으로써, $\ell_1$-손실, 대조 손실(contrastive loss), 그리고 Gumbel-Softmax 분포 기반 손실 함수를 활용한 세 가지 훈련 방법을 제안한다(이를 Sparse-CBM라 명명). 최종 FC 레이어는 여전히 교차 엔트로피(Cross-Entropy) 손실을 사용하여 훈련한다. CLIP 기반의 버블넥 모델에서 희소한 은닉 레이어를 사용함으로써 정확도가 크게 향상됨을 보여주며, 이는 개념 활성화 벡터의 희소 표현이 개념 버블넥 모델에서 의미 있는 정보를 담고 있음을 시사한다. 또한, 본 연구에서 제안하는 개념 행렬 탐색(Concept Matrix Search) 알고리즘을 통해 추가적인 훈련이나 피니팅 없이도 복잡한 데이터셋에서 CLIP의 예측 성능을 향상시킬 수 있다. 코드는 다음 주소에서 공개되어 있다: https://github.com/Andron00e/SparseCBM.

희소 개념 버블넥 모델: 대비 학습에서의 Gumbel 기법 | 최신 연구 논문 | HyperAI초신경