17일 전

DATE: Transformers의 자기지도 학습을 통한 텍스트 이상 탐지

Andrei Manolache, Florin Brad, Elena Burceanu
DATE: Transformers의 자기지도 학습을 통한 텍스트 이상 탐지
초록

최근 몇 년간 딥러닝 모델을 활용한 이상 탐지(Anomaly Detection, AD)는 전통적인 방법에 비해 뛰어난 성능을 보이며 광범위하게 활용되고 있다. 최근 이미지 데이터에서의 이상 탐지를 위한 딥러닝 기법들은 엔드투엔드 자기지도 학습(End-to-end self-supervised) 환경에서 정상 상태의 특징을 보다 효과적으로 학습한다. 이러한 방법들은 시각 데이터에 적용된 다양한 변환 간의 구분을 모델에 학습시키고, 그 출력을 활용해 이상도(Anomaly Score)를 계산한다. 본 연구에서는 텍스트 시퀀스에 대해 새로운 전처리 과제(Pretext Task)를 제안함으로써 이 접근 방식을 텍스트 분야에 적용한다. 우리는 DATE 모델을 엔드투엔드로 학습시키며, 토큰 수준과 시퀀스 수준에서 서로 독립적이고 보완적인 두 가지 자기지도 신호를 강제한다. 새로운 과제 설정 하에서 20Newsgroups 및 AG News 데이터셋에서 강력한 정량적 및 정성적 성능을 입증한다. 반감독 학습 설정에서는 기존 최고 성능 모델 대비 각각 +13.5% 및 +6.9%의 AUROC 성능 향상을 달성한다. 무감독 설정에서는 학습 데이터의 10%가 이상치로 오염된 상황에서도 다른 모든 방법들(이상치가 0%만 포함됨)보다 뛰어난 성능을 보이며, 오히려 오염된 데이터에 대한 강건성을 입증한다.

DATE: Transformers의 자기지도 학습을 통한 텍스트 이상 탐지 | 최신 연구 논문 | HyperAI초신경