11일 전

가독성 평가를 위한 통합 신경망 모델: 특성 투영과 길이 균형 손실을 통한 접근

Wenbiao Li, Ziyang Wang, Yunfang Wu
가독성 평가를 위한 통합 신경망 모델: 특성 투영과 길이 균형 손실을 통한 접근
초록

가독성 평가를 위한 기존 방법은 주로 수백 가지의 언어학적 특징을 활용하는 기계학습 분류기를 사용해 왔다. 비록 딥러닝 모델이 거의 모든 자연어 처리(NLP) 작업에서 주류 접근법으로 부상했지만, 가독성 평가 분야에서는 아직까지는 상대적으로 탐색이 부족한 상태이다. 본 논문에서는 특징 투영(feature projection)과 길이 균형 손실(length-balanced loss)을 결합한 BERT 기반 모델(BERT-FP-LBL)을 제안한다. 특히, 기존의 언어학적 특징을 보완하기 위해 주제 특징을 추출하기 위한 새로운 난이도 지식을 기반으로 한 반감독 학습 방식을 제시한다. 언어학적 특징에서 투영 필터링(projection filtering)을 적용하여 정사각형(orthogonal) 특징을 추출하여 BERT 표현을 보완한다. 더불어, 데이터의 길이 분포가 매우 다양함을 고려해 새로운 길이 균형 손실을 설계하였다. 제안된 모델은 두 개의 영어 기준 데이터셋과 중국어 교과서 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, 한 영어 데이터셋에서는 거의 완벽한 정확도(99%)를 기록하였다. 또한, 일관성 검증에서 인간 전문가와 비슷한 수준의 결과를 얻는 것으로 나타났다.

가독성 평가를 위한 통합 신경망 모델: 특성 투영과 길이 균형 손실을 통한 접근 | 최신 연구 논문 | HyperAI초신경