Command Palette

Search for a command to run...

4달 전

문서 분류를 위한 복잡한 신경망 아키텍처 재고

{Ashutosh Adhikari Achyudh Ram Raphael Tang Jimmy Lin}

문서 분류를 위한 복잡한 신경망 아키텍처 재고

초록

최근 몇 년간 자연어 처리(NLP) 작업을 위한 신경망 모델은 점점 더 복잡해지면서 학습과 배포가 더욱 어려워지고 있다. 최근 여러 논문들이 이러한 복잡한 아키텍처의 필요성을 의심하며, 적절히 설계된 단순한 모델이 매우 효과적임을 발견했다. 우리는 문서 분류 분야에서도 이와 유사한 결과를 확인했다. 최근의 여러 신경망 모델에 대한 대규모 재현성 연구를 수행한 결과, 적절한 정규화 기법을 적용한 단순한 BiLSTM 아키텍처가 네 가지 표준 벤치마크 데이터셋에서 기존 최고 성능(SOTA)과 비교해 경쟁력 있는 또는 그 이상의 정확도와 F1 점수를 달성함을 확인했다. 놀랍게도, 우리의 단순한 모델은 주목기법(attention mechanism) 없이도 이러한 성과를 달성할 수 있었다. 이 정규화 기법들은 언어 모델링에서 기존에 사용된 것들로, 새로운 것은 아니지만, 저희 연구가 이 기법들을 해당 맥락에 처음으로 적용한 것으로 보인다. 본 연구는 문서 분류 분야에서의 향후 연구를 위한 오픈소스 플랫폼과 기반을 제공한다.

벤치마크

벤치마크방법론지표
document-classification-on-imdb-mLSTM-reg (single model)
Accuracy: 52.8
document-classification-on-reuters-21578LSTM-reg (single model)
F1: 87.0
text-classification-on-yelp-5LSTM-reg (single moedl)
Accuracy: 68.7%

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
문서 분류를 위한 복잡한 신경망 아키텍처 재고 | 연구 논문 | HyperAI초신경