HyperAI초신경

초록

공식 게시물은 국민에게 관련 정보를 풍부하게 제공하는 자료원이다. 철저한 검토를 통해 공공 자금의 오용을 막을 수 있는 사기 및 비정상적인 사례를 탐지할 수 있다. 본 연구에서는 연방 지방정부의 공식 게시물에서 수집한 문서로 구성된 데이터셋을 제시하며, 문서 출처 주석이 부여된 샘플과 레이블이 없는 샘플을 모두 포함하고 있다. 우리는 ULMFiT 기반의 전이 학습 모델과 SVM 및 나이브 베이즈를 분류기로 사용하는 전통적인 단어 주머니(Bag-of-Words) 모델을 학습하고 평가하며, 비교 분석하였다. 그 결과, SVM 모델은 ULMFiT 모델에 비해 성능이 다소 낮았지만, 훈련 및 추론 속도가 훨씬 빠르고 계산 자원 소모도 적어 경제적이고 효율적인 성능을 보였다. 마지막으로, ULMFiT 모델의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 아블레이션(제거) 분석을 수행하였다.

벤치마크

벤치마크	방법론	지표
text-classification-on-dodf-data	SVM + tf-idf (no pre-trained vocab)	Average F1: 0.8755 Weighted F1: 0.8917
text-classification-on-dodf-data	ULMFiT (pre-trained vocab, no gradual unfreezing)	Average F1: 0.8918 Weighted F1: 0.9257
text-classification-on-dodf-data	SVM + word counts (pre-trained vocab)	Average F1: 0.8782 Weighted F1: 0.9049
text-classification-on-dodf-data	ULMFiT (pre-trained vocab)	Average F1: 0.8374 Weighted F1: 0.9088
text-classification-on-dodf-data	ULMFiT (no pre-trained vocab)	Average F1: 0.8469 Weighted F1: 0.8974

공식 텍스트의 원천을 추론하기: SVM이 ULMFiT를 능가할 수 있는가?

{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

공식 텍스트의 원천을 추론하기: SVM이 ULMFiT를 능가할 수 있는가?

{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters