
문장 융합, 문장 분할, 어구 재구성, 텍스트 단순화, 문법 오류 수정(Grammatical Error Correction, GEC) 등 텍스트 편집 작업들은 입력과 출력 시퀀스가 매우 유사한 공통된 특성을 공유한다. 이 연구 분야는 두 가지 잘 정립된 분야의 교차점에 위치해 있다. 첫째, 신경망 기반 기계 번역(Neural Machine Translation, NMT)과 같은 작업에 널리 사용되는 완전 자재귀적(sequence-to-sequence) 접근 방식이며, 둘째, 품사 태깅, 명명된 실체 인식(Named-entity recognition, NER) 등과 같은 작업에 일반적으로 사용되는 시퀀스 태깅 기법이다. 균형 잡힌 아키텍처를 추구하기 위해 연구자들은 다양한 창의적이고 비정형적인 해결책을 제안해 왔으며, 이에 대해 관련 연구(Related Works) 섹션에서 논의하고 있다. 본 연구에서 제안하는 텍스트 편집 작업 해결 방식은 RedPenNet이라 명명되며, 특정 Sequence-To-Edits 모델에서 나타나는 아키텍처적 및 파라미터적 중복을 줄이고, 동시에 반자재귀적(semi-autoregressive) 구조의 장점을 유지하는 것을 목표로 한다. 제안 모델은 BEA-2019(test) 기준에서 $F_{0.5}$ 점수 77.60을 기록하여, 시스템 결합을 제외한 모든 기준에서 최고 수준의 성능을 보이며, UAGEC+Fluency(test) 기준에서는 67.71의 점수를 달성하였다. 본 연구는 UNLP 2023 워크숍의 맥락에서 수행되었으며, 우크라이나어 문법 오류 수정(GEC)을 위한 공동 과제(shared task)의 논문으로 제출되었다. 본 연구는 RedPenNet 접근법을 우크라이나어의 GEC 문제에 적용하는 것을 목표로 하고 있다.