2달 전
시퀀스 수준에서의 순환 신경망 훈련
Marc'Aurelio Ranzato; Sumit Chopra; Michael Auli; Wojciech Zaremba

초록
많은 자연어 처리 응용 프로그램에서 텍스트 생성을 위해 언어 모델을 사용합니다. 이러한 모델은 일반적으로 이전 단어들과 이미지와 같은 일부 맥락을 주어진 상태에서 다음 단어를 예측하도록 훈련됩니다. 그러나 테스트 시에는 모델이 처음부터 전체 시퀀스를 생성해야 합니다. 이 불일치로 인해 오류가 누적될 수 있어 생성 과정이 취약해집니다. 우리는 이 문제를 해결하기 위해 테스트 시에 사용되는 BLEU 또는 ROUGE와 같은 메트릭을 직접 최적화하는 새로운 시퀀스 레벨 훈련 알고리즘을 제안합니다. 세 가지 다른 작업에서 우리의 접근 방식은 탐욕적인 생성을 위한 여러 강력한 기준선들을 능가하며, 이러한 기준선들이 빔 검색(beam search)을 사용할 때에도 경쟁력을 유지하면서 몇 배 더 빠릅니다.