Command Palette

Search for a command to run...

4달 전

공식 텍스트의 원천을 추론하기: SVM이 ULMFiT를 능가할 수 있는가?

{Marcelo Magalhães Silva de Sousa Teófilo Emidio de Campos Pedro Henrique Luz de Araujo}

초록

공식 게시물은 국민에게 관련 정보를 풍부하게 제공하는 자료원이다. 철저한 검토를 통해 공공 자금의 오용을 막을 수 있는 사기 및 비정상적인 사례를 탐지할 수 있다. 본 연구에서는 연방 지방정부의 공식 게시물에서 수집한 문서로 구성된 데이터셋을 제시하며, 문서 출처 주석이 부여된 샘플과 레이블이 없는 샘플을 모두 포함하고 있다. 우리는 ULMFiT 기반의 전이 학습 모델과 SVM 및 나이브 베이즈를 분류기로 사용하는 전통적인 단어 주머니(Bag-of-Words) 모델을 학습하고 평가하며, 비교 분석하였다. 그 결과, SVM 모델은 ULMFiT 모델에 비해 성능이 다소 낮았지만, 훈련 및 추론 속도가 훨씬 빠르고 계산 자원 소모도 적어 경제적이고 효율적인 성능을 보였다. 마지막으로, ULMFiT 모델의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 아블레이션(제거) 분석을 수행하였다.

벤치마크

벤치마크방법론지표
text-classification-on-dodf-dataSVM + tf-idf (no pre-trained vocab)
Average F1: 0.8755
Weighted F1: 0.8917
text-classification-on-dodf-dataULMFiT (pre-trained vocab, no gradual unfreezing)
Average F1: 0.8918
Weighted F1: 0.9257
text-classification-on-dodf-dataSVM + word counts (pre-trained vocab)
Average F1: 0.8782
Weighted F1: 0.9049
text-classification-on-dodf-dataULMFiT (pre-trained vocab)
Average F1: 0.8374
Weighted F1: 0.9088
text-classification-on-dodf-dataULMFiT (no pre-trained vocab)
Average F1: 0.8469
Weighted F1: 0.8974

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp