17일 전

InfoBERT: 정보 이론적 관점에서 언어 모델의 견고성 향상

Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu
InfoBERT: 정보 이론적 관점에서 언어 모델의 견고성 향상
초록

대규모 언어 모델인 BERT는 자연어 처리(NLP) 분야의 다양한 작업에서 최첨단 성능을 달성하고 있다. 그러나 최근 연구들은 이러한 BERT 기반 모델이 텍스트 기반 적대적 공격에 취약함을 보여주고 있다. 본 연구는 정보이론적 관점에서 이 문제를 해결하고자 하며, 사전 학습된 언어 모델의 강건한 미세조정을 위한 새로운 학습 프레임워크인 InfoBERT를 제안한다. InfoBERT는 모델 학습에 사용되는 두 가지 상호정보 기반 정규화 항을 포함한다. 첫째, 정보 병목(Information Bottleneck) 정규화 항은 입력과 특징 표현 사이의 노이즈를 포함한 상호정보를 억제한다. 둘째, 강건한 특징(Robust Feature) 정규화 항은 국소적인 강건한 특징과 전역 특징 사이의 상호정보를 증가시킨다. 본 연구는 표준 학습과 적대적 학습 환경에서 언어 모델의 표현 학습 강건성에 대해 이론적으로 분석하고 개선할 수 있는 체계적인 방법을 제시한다. 광범위한 실험을 통해 InfoBERT가 자연어 추론(NLI) 및 질문 응답(QA) 작업에서 여러 적대적 데이터셋에 대해 최첨단의 강건한 정확도를 달성함을 입증하였다. 코드는 https://github.com/AI-secure/InfoBERT 에 공개되어 있다.