17일 전

코사인 유사도를 이용한 문서 벡터의 재고찰

Zhang Bingyu, Nikolay Arefyev
코사인 유사도를 이용한 문서 벡터의 재고찰
초록

IMDB 영화 리뷰 데이터셋에서 현재까지의 최고 성능(97.42%)은 \citet{thongtan-phienthrakul-2019-sentiment}에 의해 보고되었으며, 이는 그들의 논문에서 제안한 문서 벡터(DV-ngrams-cosine)를 사용한 로지스틱 회귀 분류기와 나이브 베이즈 가중치로 스케일링된 Bag-of-N-grams(BON) 벡터를 활용하여 달성되었다. 많은 사전 훈련된 Transformer 기반 모델이 다양한 데이터셋과 과제에서 최고 성능을 보여주고 있음에도 불구하고, 이 모델은 훨씬 간단한 구조를 가지며 IMDB 데이터셋에서만 사전 훈련된 점을 고려하면, 여전히 이를 능가하지 못하고 있다.본 논문에서는 이 모델의 평가 절차에 존재하는 오류를 설명한다. 이 오류는 IMDB 데이터셋에서 이 모델의 뛰어난 성능을 분석하던 도중 발견되었다. 또한 기존에 보고된 97.42%의 테스트 정확도는 유효하지 않으며, 정정하여 93.68%로 수정되어야 함을 보여준다. 더불어, 다양한 양의 훈련 데이터(즉, IMDB 데이터셋의 부분 집합)를 사용했을 때의 모델 성능을 분석하고, Transformer 기반의 RoBERTa 모델과 비교하였다. 그 결과, RoBERTa는 훈련 데이터가 많을수록 명확한 성능 우위를 보이지만, 레이블이 부여된 훈련 데이터가 매우 적은 경우(10개 또는 20개 문서)에서는 DV-ngrams-cosine 모델이 RoBERTa보다 더 우수한 성능을 나타냄을 확인하였다. 마지막으로, DV-ngrams-cosine의 훈련 과정에 대해 나이브 베이즈 가중치 기반의 서브샘플링 기법을 도입하였으며, 이는 훈련 속도를 향상시키고 모델 품질을 개선하는 데 기여한다.