Command Palette
Search for a command to run...
{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}
초록
공식 게시물은 국민에게 관련 정보를 풍부하게 제공하는 자료원이다. 철저한 검토를 통해 공공 자금의 오용을 막을 수 있는 사기 및 비정상적인 사례를 탐지할 수 있다. 본 연구에서는 연방 지방정부의 공식 게시물에서 수집한 문서로 구성된 데이터셋을 제시하며, 문서 출처 주석이 부여된 샘플과 레이블이 없는 샘플을 모두 포함하고 있다. 우리는 ULMFiT 기반의 전이 학습 모델과 SVM 및 나이브 베이즈를 분류기로 사용하는 전통적인 단어 주머니(Bag-of-Words) 모델을 학습하고 평가하며, 비교 분석하였다. 그 결과, SVM 모델은 ULMFiT 모델에 비해 성능이 다소 낮았지만, 훈련 및 추론 속도가 훨씬 빠르고 계산 자원 소모도 적어 경제적이고 효율적인 성능을 보였다. 마지막으로, ULMFiT 모델의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 아블레이션(제거) 분석을 수행하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| text-classification-on-dodf-data | SVM + tf-idf (no pre-trained vocab) | Average F1: 0.8755 Weighted F1: 0.8917 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab, no gradual unfreezing) | Average F1: 0.8918 Weighted F1: 0.9257 |
| text-classification-on-dodf-data | SVM + word counts (pre-trained vocab) | Average F1: 0.8782 Weighted F1: 0.9049 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab) | Average F1: 0.8374 Weighted F1: 0.9088 |
| text-classification-on-dodf-data | ULMFiT (no pre-trained vocab) | Average F1: 0.8469 Weighted F1: 0.8974 |