17일 전

RWKV: 트랜스포머 시대를 위한 RNN의 재발명

Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Jiaju Lin, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Bolun Wang, Johan S. Wind, Stanislaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu
RWKV: 트랜스포머 시대를 위한 RNN의 재발명
초록

Transformers는 거의 모든 자연어 처리(NLP) 작업에서 혁신을 가져왔지만, 시퀀스 길이에 따라 메모리와 계산 복잡도가 이차적으로 증가하는 한계를 가지고 있다. 반면에 순환 신경망(RNN)은 메모리 및 계산 요구량에서 선형적인 스케일링 특성을 보이지만, 병렬 처리와 확장성의 제약으로 인해 Transformers와 동등한 성능을 달성하기 어려운 문제가 있다. 본 연구에서는 Transformers의 효율적인 병렬 훈련과 RNN의 효율적인 추론을 결합한 새로운 모델 아키텍처인 Receptance Weighted Key Value(RWKV)를 제안한다.본 연구의 접근법은 선형 주의(linear attention) 메커니즘을 활용하여, 모델을 훈련 시 Transformer처럼 병렬적으로 계산할 수 있도록 하면서도, 추론 시 일정한 계산 및 메모리 복잡도를 유지할 수 있게 한다. 이를 통해 140억 파라미터에 이르는 대규모 모델을 구축하였으며, 이는 지금까지 훈련된 가장 큰 밀집형(RNN) 모델이다. 실험 결과, RWKV는 크기가 유사한 Transformers와 비교해 유사한 성능을 보였으며, 이는 향후 더 효율적인 모델 설계를 위한 새로운 가능성을 시사한다. 본 연구는 시퀀스 처리 작업에서 계산 효율성과 모델 성능 사이의 균형을 개선하기 위한 중요한 전환점이 된다.