11일 전

시퀀스 가능성 보정은 조건부 언어 생성을 개선한다

Yao Zhao, Misha Khalman, Rishabh Joshi, Shashi Narayan, Mohammad Saleh, Peter J. Liu
시퀀스 가능성 보정은 조건부 언어 생성을 개선한다
초록

조건부 언어 모델은 주로 최대우도추정(MLE: Maximum Likelihood Estimation)을 통해 훈련되며, 이는 드물게 관측되는 타겟 시퀀스에 확률 질량을 할당한다. MLE로 훈련된 모델은 주어진 맥락 하에서 타당한 시퀀스에 높은 확률을 부여하지만, 생성된 시퀀스의 품질 순서를 정확히 정렬하지는 못하는 경우가 많다. 이는 비트 검색(beam search) 디코딩에서 비트 크기가 커질수록 출력 품질이 저하되는 현상으로 실험적으로 관찰되었으며, 길이 정규화나 반복 차단과 같은 휴리스틱 기법에 의존하는 디코딩 전략이 등장하게 되었다. 본 연구에서는 모델이 생성한 시퀀스의 확률을 모델의 잠재 공간 내 참조 시퀀스와 더 잘 일치하도록 조정하는 시퀀스 우도 보정(SLiC: Sequence Likelihood Calibration)을 제안한다. SLiC를 도입함으로써 디코딩 휴리스틱이 필요 없어지고, 어떤 디코딩 방법을 사용하든 디코딩 후보의 품질이 크게 향상된다. 또한 SLiC는 모델 규모 증가에 따라 수익 감소 현상이 나타나지 않으며, 훈련 및 추론 예산이 제한된 환경에서도 품질 향상을 위한 대안적 접근을 제공한다. SLiC를 적용함으로써, 요약 생성, 질문 생성, 추상적 질의응답, 데이터에서 텍스트 생성에 이르기까지 다양한 생성 작업에서 기존 최고 성능(SOTA)을 초과하거나 근접하는 결과를 달성할 수 있으며, 모델 크기가 작더라도 충분한 성능을 발휘한다.

시퀀스 가능성 보정은 조건부 언어 생성을 개선한다 | 최신 연구 논문 | HyperAI초신경