11일 전

공식 텍스트의 원천을 추론하기: SVM이 ULMFiT를 능가할 수 있는가?

{Marcelo Magalhães Silva de Sousa, Teófilo Emidio de Campos, Pedro Henrique Luz de Araujo}
초록

공식 게시물은 국민에게 관련 정보를 풍부하게 제공하는 자료원이다. 철저한 검토를 통해 공공 자금의 오용을 막을 수 있는 사기 및 비정상적인 사례를 탐지할 수 있다. 본 연구에서는 연방 지방정부의 공식 게시물에서 수집한 문서로 구성된 데이터셋을 제시하며, 문서 출처 주석이 부여된 샘플과 레이블이 없는 샘플을 모두 포함하고 있다. 우리는 ULMFiT 기반의 전이 학습 모델과 SVM 및 나이브 베이즈를 분류기로 사용하는 전통적인 단어 주머니(Bag-of-Words) 모델을 학습하고 평가하며, 비교 분석하였다. 그 결과, SVM 모델은 ULMFiT 모델에 비해 성능이 다소 낮았지만, 훈련 및 추론 속도가 훨씬 빠르고 계산 자원 소모도 적어 경제적이고 효율적인 성능을 보였다. 마지막으로, ULMFiT 모델의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 아블레이션(제거) 분석을 수행하였다.

공식 텍스트의 원천을 추론하기: SVM이 ULMFiT를 능가할 수 있는가? | 최신 연구 논문 | HyperAI초신경