복사 메커니즘과 맞춤형 훈련을 이용한 문자 기반 데이터-텍스트 생성

최근 몇 년 동안, 자연어 생성을 위해 깊은 순환 신경망을 사용하는 다양한 방법들이 주목받고 있습니다. 가장 널리 사용되는 시퀀스-투-시퀀스 신경망 방법들은 단어 기반입니다: 이에 따라, 흔하지 않거나 알려지지 않은 단어를 처리하기 위해 사전 처리 단계인 디렉사얼라이제이션(반대로 렉사얼라이제이션)이 필요합니다. 그러나 이러한 형태의 처리는 모델이 사용된 어휘에 의존하고 완전히 신경망 기반이 아니라는 문제점을 가져옵니다. 본 연구에서는 어휘에 의존하지 않고 더 이상 디렉사얼라이제이션, 토큰화, 또는 소문자 변환조차 요구하지 않는 문자 수준에서 읽고 생성하는 주의 메커니즘을 갖춘 엔드-투-엔드 시퀀스-투-시퀀스 모델을 제시합니다. 또한, 문자가 모든 텍스트의 공통적인 "구성 요소"임으로 인해, 전이 학습을 활용한 훈련 가능성을 제공하여 텍스트 생성에 대한 보다 일반적인 접근 방식을 가능하게 합니다. 이러한 능력은 두 가지 주요 특징 덕분에 얻어집니다: (i) 표준 생성 메커니즘과 복사 메커니즘 사이에서 교대할 수 있는 가능성으로, 입력 사실을 직접 복사하여 출력을 생성할 수 있으며, (ii) 생성된 텍스트의 품질을 더욱 개선하는 독창적인 훈련 파이프라인의 사용입니다. 또한, 문자 기반 모델의 복사 능력을 강조하기 위해 설계된 새로운 데이터셋 E2E+를 소개합니다. 이는 E2E 챌린지에서 사용되는 잘 알려진 E2E 데이터셋의 수정 버전입니다. 우리는 널리 인정받는 다섯 가지 평가 지표(주로 BLEU 포함)를 통해 모델을 검증하였으며, 문자 기반 및 단어 기반 접근 방식 모두와 비교하여 경쟁력 있는 성능을 보임을 확인하였습니다.