17일 전

사전 훈련된 모델에서 중간 표현을 이용한 조합적 일반화 해제

Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang
사전 훈련된 모델에서 중간 표현을 이용한 조합적 일반화 해제
초록

시퀀스-투-시퀀스(seq2seq) 모델은 의미 분석 분야에서 널리 사용되고 있으나, 분포 외 구성적 일반화(out-of-distribution compositional generalization)에 있어 어려움을 겪는 것으로 밝혀졌다. 이 문제를 해결하기 위해 특화된 모델 아키텍처나 seq2seq 모델의 사전 훈련 전략이 제안되어 왔다. 그러나 전자는 일반성 측면에서 비용이 크고, 후자는 제한된 성공만을 보였다. 본 논문에서는 모델 아키텍처를 전혀 변경하지 않고, 사전 훈련된 seq2seq 모델에서 중간 표현(intermediate representation)이 구성적 일반화에 미치는 영향을 탐구하며, 효과적인 표현을 설계하기 위한 핵심 요소를 규명한다. 자연어를 직접 실행 가능한 형태로 매핑하는 대신, 자연어와 더 강한 구조적 대응 관계를 가지는 가역적(reversible) 또는 손실 있는(lossy) 중간 표현으로 매핑하는 방식을 제안한다. 제안한 중간 표현과 사전 훈련 모델의 조합은 놀라울 정도로 효과적이며, CFQ 데이터셋에서 기존 최고 성능보다 정확도 14.8점 향상되었고, 세 개의 텍스트-투-SQL 데이터셋의 템플릿 분할(template-splits)에서는 각각 15.0~19.4점의 정확도 향상을 달성했다. 본 연구는 중간 표현이 사전 훈련된 seq2seq 모델의 구성적 일반화 능력을 향상시키는 데 중요한, 그러나 간과되기 쉬운 자유도(free degree)를 제공함을 시사한다.

사전 훈련된 모델에서 중간 표현을 이용한 조합적 일반화 해제 | 최신 연구 논문 | HyperAI초신경