2달 전

KERMIT: 시퀀스를 위한 생성적 삽입 모델링

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit
KERMIT: 시퀀스를 위한 생성적 삽입 모델링
초록

우리는 시퀀스와 시퀀스 쌍에 대한 생성 모델링을 위한 간단한 삽입 기반 접근 방식인 KERMIT를 제시합니다. KERMIT는 단일 신경망을 사용하여 결합 분포와 그 분해(즉, 주변 분포와 조건부 분포)를 모델링하며, 이전의 많은 연구들과 달리 데이터 분포의 사전 지정된 인자를 필요로 하지 않습니다. 학습 과정에서 결합 분포 $p(x, y)$를 학습하기 위해 KERMIT에 짝을 이룬 데이터 $(x, y)$를 입력할 수 있으며, 선택적으로 주변 분포 $p(x)$ 또는 $p(y)$를 개선하기 위해 짝을 이루지 않은 데이터 $x$ 또는 $y$를 혼합할 수도 있습니다. 추론 과정에서는 양방향으로 조건부 분포 $p(x \mid y)$와 $p(y \mid x)$에 접근할 수 있으며, 결합 분포나 주변 분포로부터 샘플링도 가능합니다. 이 모델은 직렬 완전 자기 회귀 디코딩과 병렬 부분 자기 회귀 디코딩을 모두 지원하며, 후자는 경험적으로 로그 시간 복잡도(logarithmic runtime)를 나타냅니다. 우리는 기계 번역, 표현 학습 및 제로샷 클로즈 질문 응답 실험을 통해 우리의 통합 접근 방식이 문제별 구조적 적응 없이 다양한 작업에서 전용 최신 시스템의 성능을 일치시키거나 초월할 수 있음을 입증하였습니다.