두 세계의 최선: 판별 학습에서 생성적 시각 대화 모델로 지식 전송

신경 순서 모델, 특히 지지된 대화 생성을 위한 새로운 훈련 프레임워크를 제시합니다. 이러한 모델의 표준 훈련 패러다임은 최대 우도 추정(MLE) 또는 인간 응답의 교차 엔트로피를 최소화하는 것입니다. 다양한 도메인에서 MLE로 훈련된 생성형 신경 대화 모델(G)의 반복적인 문제는 '안전하고' 일반적인 응답("모르겠습니다", "말씀드릴 수 없습니다")을 생성하는 경향이 있다는 점입니다. 반면, 후보 인간 응답 목록을 순위 매기는 데 훈련된 판별형 대화 모델(D)은 자동 메트릭, 다양성 및 응답의 정보성 측면에서 생성형 모델보다 우수한 성능을 보입니다. 그러나 D는 실제 사용자와 실시간 대화를 수행할 수 없으므로 실용적이지 않습니다.본 연구는 G와 D의 장점을 모두 달성하기 위해 D에서 G로의 지식 전송을 통해 이 두 세계의 최선을 이루고자 합니다. 우리의 주요 기여는 D가 G로부터 샘플링된 시퀀스에 대한 인식적(비대립적) 손실로서 그래디언트를 제공하는 end-to-end 학습 가능한 생성형 시각 대화 모델입니다. 우리는 최근 제안된 이산 분포에 대한 Gumbel-Softmax(GS) 근사법을 활용하여, 특히 GS 샘플러 시퀀스로 강화된 RNN과 직통 그래디언트 추정기를 결합하여 end-to-end 미분 가능성을 가능하게 합니다. 또한, 시각 대화에 더 강력한 인코더를 소개하며, 답변 인코딩에 자기 주목 메커니즘과 메트릭 학습 손실을 사용하여 D가 답변 응답에서 의미적 유사성을 더 잘 포착하도록 돕습니다. 전체적으로, 제안된 모델은 VisDial 데이터셋에서 현 상태 최고 기술(state-of-the-art)보다 크게 개선된 성능(10위 안에 드는 정확도 recall@10 2.67% 상승)을 보였습니다. 소스 코드는 https://github.com/jiasenlu/visDial.pytorch 에서 다운로드할 수 있습니다.