
초록
2017년 NLI 공동 과제(NLI Shared Task 2017)의 일환으로, 본 연구에서는 Native Language Identification(NLI)를 위한 N-gram 및 임베딩 기반 특성 표현에 대한 실험을 보고한다(팀 명: NLI-ISU). 문장형 에세이에 대한 테스트 세트에서 가장 높은 성능을 기록한 시스템은 단어의 유니그램, 바이그램, 트라이그램 특성 기반으로 구성되었으며, 매크로 F1 점수는 0.8264를 달성하였다. 본 작업에서는 단어, 문자, 품사(POS), 그리고 단어-POS 혼합 표현을 포함한 다양한 N-gram 표현 방식을 탐색하였다. 임베딩 기반 특성 표현의 경우, 단어 임베딩과 문서 임베딩을 모두 활용하였다. 그러나 임베딩 기반 표현은 N-gram 대비 상대적으로 낮은 성능을 보였다. 이는 임베딩이 의미적 유사성을 포착하는 데 강점을 가지지만, 원어민 여부 구분(NLI)에 있어 더 중요한 요소인 언어 스타일적 차이(L1 차이)를 효과적으로 반영하지 못하기 때문일 수 있다.