11일 전

텍스트 가독성 평가의 한계를 넘어서기 위해: 트랜스포머가 수작업 언어학적 특징과 만나다

Bruce W. Lee, Yoo Sung Jang, Jason Hyung-Jong Lee
텍스트 가독성 평가의 한계를 넘어서기 위해: 트랜스포머가 수작업 언어학적 특징과 만나다
초록

우리는 가독성 평가 분야에서 두 가지 핵심적인 개선점을 보고한다. 첫째, 고급 의미론적 측면에서 새롭게 제안한 세 가지 특징이며, 둘째, 기존의 머신러닝 모델(예: 수작업 특징을 사용하는 랜덤 포레스트)이 트랜스포머 모델(예: RoBERTa)과 결합될 수 있음이 시의적절하게 입증된 점이다. 본 연구에서는 먼저 적합한 트랜스포머 모델과 기존 머신러닝 모델을 탐색하고, 이후 자체 개발한 추출 소프트웨어를 활용해 총 255개의 수작업 특징을 추출한다. 이후 이들 특징들을 조합하여 여러 하이브리드 모델을 구축하였으며, 가독성 평가 분야에서 널리 사용되는 대표적 데이터셋에서 최고 성능(SOTA)을 달성하였다. 특히, 수작업 특징의 활용은 작은 규모의 데이터셋에서 모델 성능을 향상시키는 데 기여한다. 주목할 점은, 본 연구에서 제안한 RoBERTA-RF-T1 하이브리드 모델이 99%에 가까운 분류 정확도를 기록하여 이전 최고 성능보다 20.3% 향상된 결과를 보였다는 점이다.

텍스트 가독성 평가의 한계를 넘어서기 위해: 트랜스포머가 수작업 언어학적 특징과 만나다 | 최신 연구 논문 | HyperAI초신경