Command Palette

Search for a command to run...

4달 전

N-gram 및 Embedding 표현을 활용한 모국어 식별 연구

{Sowmya Vajjala Sagnik Banerjee}

N-gram 및 Embedding 표현을 활용한 모국어 식별 연구

초록

2017년 NLI 공동 과제(NLI Shared Task 2017)의 일환으로, 본 연구에서는 Native Language Identification(NLI)를 위한 N-gram 및 임베딩 기반 특성 표현에 대한 실험을 보고한다(팀 명: NLI-ISU). 문장형 에세이에 대한 테스트 세트에서 가장 높은 성능을 기록한 시스템은 단어의 유니그램, 바이그램, 트라이그램 특성 기반으로 구성되었으며, 매크로 F1 점수는 0.8264를 달성하였다. 본 작업에서는 단어, 문자, 품사(POS), 그리고 단어-POS 혼합 표현을 포함한 다양한 N-gram 표현 방식을 탐색하였다. 임베딩 기반 특성 표현의 경우, 단어 임베딩과 문서 임베딩을 모두 활용하였다. 그러나 임베딩 기반 표현은 N-gram 대비 상대적으로 낮은 성능을 보였다. 이는 임베딩이 의미적 유사성을 포착하는 데 강점을 가지지만, 원어민 여부 구분(NLI)에 있어 더 중요한 요소인 언어 스타일적 차이(L1 차이)를 효과적으로 반영하지 못하기 때문일 수 있다.

벤치마크

벤치마크방법론지표
native-language-identification-on-italki-nliNLI-ISU
Average F1: 0.5035

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
N-gram 및 Embedding 표현을 활용한 모국어 식별 연구 | 연구 논문 | HyperAI초신경