3달 전
트릴리언 토큰에서 검색하여 언어 모델 개선하기
Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre

초록
우리는 이전 토큰과의 국소적 유사성 기반으로 대규모 코퍼스에서 문서 청크를 검색하여 자동 회귀 언어 모델을 조건화함으로써 모델 성능을 향상시켰다. 2조 토큰 규모의 데이터베이스를 기반으로 한 검색 기반 트랜스포머(Retrieval-Enhanced Transformer, RETRO)는 GPT-3 및 Jurassic-1과 비교해도 유사한 성능을 달성했으며, 파라미터 수는 25배 적게 사용했다. 미세조정 후 RETRO의 성능은 질문 응답과 같은 지식 집약적인 하류 작업으로도 효과적으로 전이된다. RETRO는 고정된 Bert 검색기, 미분 가능한 인코더, 그리고 청크 기반의 크로스 어텐션 메커니즘을 결합하여, 일반적으로 학습 중 소비되는 데이터량보다 10배 이상 많은 데이터를 기반으로 토큰을 예측한다. RETRO는 일반적으로 초기부터 학습하지만, 사전 훈련된 트랜스포머에 검색 기능을 빠르게 적용(RETROfit)할 수도 있으며, 여전히 우수한 성능을 달성할 수 있다. 본 연구는 비정형 기억을 초대규모로 활용함으로써 언어 모델 개선을 위한 새로운 길을 열었다.