
초록
자동 가독성 평가(Automatic Readability Assessment, ARA)는 특정 대상 독자층에게 텍스트 문서의 읽기 쉬움 또는 어려움 수준을 평가하는 작업이다. 연구자들에게 이 분야에서 여전히 해결되지 않은 주요 과제 중 하나는, 해당 작업을 위해 훈련된 모델이 저자원 언어(low-resource languages)에 대해서도 효과적으로 작동하도록 하는 것이다. 본 연구에서는 BERT 모델의 정보 풍부한 임베딩과 수작업으로 구성한 언어학적 특징을 병합한 방법을 통해 가독성 평가를 수행하는 대안적인 접근 방식을 제안한다. 실험 결과, 제안한 방법은 영어 및 필리핀어 데이터셋을 사용한 가독성 평가에서 기존의 전통적 접근법보다 우수한 성능을 보였으며, F1 점수 기준으로 최대 12.4%의 성능 향상을 달성하였다. 또한 BERT 임베딩에 포함된 일반적인 정보가, 의미론적 및 문법적 자연어 처리(NLP) 도구가 제한적인 저자원 언어(예: 필리핀어)에 대해서는 특징 값을 명시적으로 추출하기 어려운 상황에서도 유의미한 대체 특징 집합으로 활용될 수 있음을 보여주었다.