17일 전

지식 집약형 NLP 과제를 위한 검색 증강 생성

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela
지식 집약형 NLP 과제를 위한 검색 증강 생성
초록

대규모 사전 훈련된 언어 모델은 파라미터 내에 사실 지식을 저장함을 보여주었으며, 하류 NLP 작업에 대해 미세 조정(fine-tuning)을 수행할 경우 최첨단 성능을 달성한다. 그러나 이러한 모델의 지식 접근 및 정밀한 조작 능력은 여전히 제한적이며, 지식 집약적인 작업에서는 특화된 아키텍처에 비해 성능이 뒤처진다. 더불어, 모델의 결정에 대한 근거(출처) 제공 및 세계 지식의 갱신 문제는 여전히 해결되지 않은 연구 과제이다. 파라미터가 아닌 명시적 비파라미터 메모리에 대해 미분 가능한 접근 메커니즘을 갖춘 사전 훈련된 모델은 이러한 문제를 해결할 수 있으나, 현재까지는 추출 기반 하류 작업에만 연구가 이루어져 왔다. 본 연구에서는 검색 기반 생성(retrieval-augmented generation, RAG)을 위한 일반적인 미세 조정 레시피를 탐구한다. RAG 모델은 사전 훈련된 파라미터 기반 메모리와 비파라미터 메모리를 결합하여 언어 생성을 수행한다. 본 연구에서는 파라미터 메모리로 사전 훈련된 seq2seq 모델을, 비파라미터 메모리로 위키백과의 밀도 벡터 인덱스를 사용하며, 이를 사전 훈련된 신경 검색기(neural retriever)를 통해 접근한다. 두 가지 RAG 구성 방식을 비교한다. 하나는 생성 시퀀스 전체에 걸쳐 동일한 검색된 문장을 기반으로 조건부 생성을 수행하는 방식이고, 다른 하나는 각 토큰마다 다른 문장을 사용할 수 있는 방식이다. 다양한 지식 집약적인 NLP 작업에 대해 모델을 미세 조정하고 평가한 결과, 세 가지 오픈 도메인 질의응답(QA) 작업에서 최첨단 성능을 달성하였으며, 파라미터 기반 seq2seq 모델 및 특화된 검색-추출 아키텍처를 모두 능가하였다. 언어 생성 작업에서는 RAG 모델이 최첨단의 파라미터 중심 seq2seq 베이스라인보다 더 구체적이고 다양한, 그리고 사실 기반의 언어를 생성함을 확인하였다.

지식 집약형 NLP 과제를 위한 검색 증강 생성 | 최신 연구 논문 | HyperAI초신경