11일 전

BERT 임베딩을 이용한 자동 가독성 평가

Joseph Marvin Imperial
BERT 임베딩을 이용한 자동 가독성 평가
초록

자동 가독성 평가(Automatic Readability Assessment, ARA)는 특정 대상 독자층에게 텍스트 문서의 읽기 쉬움 또는 어려움 수준을 평가하는 작업이다. 연구자들에게 이 분야에서 여전히 해결되지 않은 주요 과제 중 하나는, 해당 작업을 위해 훈련된 모델이 저자원 언어(low-resource languages)에 대해서도 효과적으로 작동하도록 하는 것이다. 본 연구에서는 BERT 모델의 정보 풍부한 임베딩과 수작업으로 구성한 언어학적 특징을 병합한 방법을 통해 가독성 평가를 수행하는 대안적인 접근 방식을 제안한다. 실험 결과, 제안한 방법은 영어 및 필리핀어 데이터셋을 사용한 가독성 평가에서 기존의 전통적 접근법보다 우수한 성능을 보였으며, F1 점수 기준으로 최대 12.4%의 성능 향상을 달성하였다. 또한 BERT 임베딩에 포함된 일반적인 정보가, 의미론적 및 문법적 자연어 처리(NLP) 도구가 제한적인 저자원 언어(예: 필리핀어)에 대해서는 특징 값을 명시적으로 추출하기 어려운 상황에서도 유의미한 대체 특징 집합으로 활용될 수 있음을 보여주었다.

BERT 임베딩을 이용한 자동 가독성 평가 | 최신 연구 논문 | HyperAI초신경