17일 전

뉴럴 심볼릭 리더: 독해를 위한 분산 및 심볼릭 표현의 확장 가능한 통합

{Chen Liang, Quoc V. Le, Denny Zhou, Adams Wei Yu, Xinyun Chen, Dawn Song}
뉴럴 심볼릭 리더: 독해를 위한 분산 및 심볼릭 표현의 확장 가능한 통합
초록

복잡한 추론이 필요한 독해 과제, 예를 들어 세기, 정렬, 산술 연산 등에 있어서 분산 표현(distributed representations)과 상징적 연산(symbolic operations)을 통합하는 것은 필수적이다. 그러나 기존의 대부분의 접근 방식은 더 많은 도메인이나 더 복잡한 추론으로 확장하기 어려운 문제가 있다. 본 연구에서는 독해 문장과 질문을 인코딩하는 리더(reader), 예를 들어 BERT를 포함하고, 이를 실행하여 답변을 생성하는 프로그램을 생성하는 프로그래머(programmer), 예를 들어 LSTM을 포함하는 신경 상징적 리더(Neural Symbolic Reader, NeRd)를 제안한다. 기존의 연구와 비교하여, NeRd는 두 가지 측면에서 더 높은 확장성을 갖는다. (1) 도메인 무관성(domain-agnostic): 동일한 신경망 아키텍처가 다양한 도메인에 적용 가능하다. (2) 구성성(compositional): 필요할 경우 미리 정의된 연산자들을 재귀적으로 적용하여 복잡한 프로그램을 생성할 수 있으며, 이는 더 복잡한 추론을 위한 실행 가능하고 해석 가능한 표현으로 기능한다. 또한, 약한 감독(weak supervision) 하에서 NeRd를 학습하는 데 있어 발생하는 도전 과제를 극복하기 위해 데이터 증강(data augmentation) 기법과 임계값을 적용한 하드 기대최대화(Expectation-Maximization, EM) 기법을 도입하였다. DROP, 즉 이산적 추론(discrete reasoning)을 요구하는 도전적인 독해 데이터셋에서, NeRd는 EM 및 F1 지표에서 기존 최고 성능 대비 각각 1.37%, 1.18%의 절대적 성능 향상을 달성하였다. 동일한 아키텍처를 사용하여, 수학적 추론이 다수 단계를 요구하는 MathQA 수학 문제 벤치마크에서도, 모든 레이블링된 프로그램을 사용해 학습했을 때 정확도에서 기존 베이스라인 대비 25.5%의 절대적 증가를 기록하였다. 더욱 중요한 것은, 프로그램 레이블링 데이터의 20%만 제공되었을 때에도 NeRd가 여전히 베이스라인을 능가한다는 점이다.