
초록
본 논문은 대규모 및 풍부한 영역에 확장되는 개념-텍스트 생성을 위한 신경망 모델을 소개합니다. 우리는 위키백과에서 얻은 새로운 전기 데이터셋을 실험하는데, 이 데이터셋은 기존 자원보다 10배 이상 크며 70만 개 이상의 샘플을 포함하고 있습니다. 또한 이 데이터셋은 Weathergov나 Robocup과 비교하여 40만 개의 어휘를 갖추고 있어 훨씬 더 다양합니다(Weathergov와 Robocup은 몇백 개의 단어만 사용).우리의 모델은 텍스트 생성을 위한 조건부 신경 언어 모델에 대한 최근 연구를 바탕으로 합니다. 큰 어휘를 처리하기 위해, 우리는 이러한 모델들을 고정된 어휘와 복사 동작을 혼합하여 확장하였습니다. 이 복사 동작은 입력 데이터베이스에서 샘플 특유의 단어를 생성된 출력 문장으로 전송합니다. 우리의 신경망 모델은 이 작업에 적응된 클래식 Kneser-Ney 언어 모델보다 거의 15 BLEU 점수가 높아 상당히 우수한 성능을 보입니다.