
초록
우리는, 우리 지식으로 미루어볼 때, BERT를 문서 분류에 처음 적용한 사례를 제시합니다. 이 작업의 몇 가지 특성은 BERT가 가장 적합한 모델이 아닐 수 있다는 생각을 갖게 할 수 있습니다: 문법 구조는 내용 범주에 덜 중요하며, 문서는 종종 일반적인 BERT 입력보다 길고, 여러 라벨을 가질 수 있습니다. 그럼에도 불구하고, 우리는 간단한 분류 모델을 사용하여 BERT가 네 개의 인기 있는 데이터셋에서 최신 기술 수준을 달성할 수 있음을 보여줍니다. BERT 추론과 관련된 계산 비용 문제를 해결하기 위해, 우리는 BERT-large에서 얻은 지식을 작은 양방향 LSTM으로 전달하여, 30배 적은 매개변수로 BERT-base와 동등한 성능을 여러 데이터셋에서 달성하였습니다. 본 논문의 주요 기여점은 향후 연구의 기반이 될 수 있는 개선된 베이스라인을 제공하는 것입니다.