2달 전

깊은 강화 학습을 이용한 언급 순위 공참 모델

Kevin Clark; Christopher D. Manning
깊은 강화 학습을 이용한 언급 순위 공참 모델
초록

공통 참조 해결 시스템은 일반적으로 휴리스틱 손실 함수를 사용하여 교정 훈련이 필요합니다. 본 논문에서는 대신 강화 학습을 적용하여 공통 참조 평가 지표에 대해 신경망 언급 순위 모델을 직접 최적화하였습니다. 두 가지 접근 방식을 실험하였는데, 이는 REINFORCE 정책 경사 알고리즘과 보상 조정된 최대 마진 목적함수입니다(Reinforce policy gradient algorithm and a reward-rescaled max-margin objective). 후자가 더 효과적이었으며, 영어와 중국어 부분에서 CoNLL 2012 공유 작업의 현재 최고 수준보다 크게 개선되었습니다.

깊은 강화 학습을 이용한 언급 순위 공참 모델 | 최신 연구 논문 | HyperAI초신경