2달 전

Beam Search의 연속 완화를 통한 신경망 시퀀스 모델의 엔드투엔드 학습

Kartik Goyal; Graham Neubig; Chris Dyer; Taylor Berg-Kirkpatrick
Beam Search의 연속 완화를 통한 신경망 시퀀스 모델의 엔드투엔드 학습
초록

빔 검색은 신경망 시퀀스 모델의 테스트 시간 디코딩 알고리즘으로서 바람직한 선택입니다. 이는 간단한 탐욕적 방법이 범할 수 있는 검색 오류를 잠재적으로 피할 수 있기 때문입니다. 그러나 이러한 모델의 일반적인 크로스 엔트로피 학습 절차는 최종 디코딩 방법의 동작을 직접 고려하지 않습니다. 결과적으로, 크로스 엔트로피 학습된 모델에서 빔 디코딩은 탐욕적 디코딩과 비교하여 때때로 테스트 성능이 저하될 수 있습니다. 빔 검색의 출력에 대해 평가된 최종 손실 메트릭(예: 해밍 손실)을 더 효과적으로 활용할 수 있는 모델을 학습하기 위해, 우리는 새로운 학습 절차를 제안합니다. 이 "직접 손실" 목적 함수는 잘 정의되어 있지만, 불연속적이기 때문에 최적화하기 어렵습니다. 따라서 우리의 접근 방식에서는 빔 검색 디코딩 절차의 새로운 연속 근사법을 도입하여 부분 미분 가능한 대체 목적 함수를 형성합니다. 실험에서 우리는 이 새로운 학습 목적 함수를 최적화하면, 크로스 엔트로피 학습된 탐욕적 디코딩 및 빔 디코딩 기준과 비교하여 두 시퀀스 작업(명칭 실체 인식 및 CCG 슈퍼태깅)에서 상당히 더 나은 결과를 얻음을 보여주었습니다.

Beam Search의 연속 완화를 통한 신경망 시퀀스 모델의 엔드투엔드 학습 | 최신 연구 논문 | HyperAI초신경