16일 전

Charformer: 기울기 기반 하위어 토큰화를 통한 빠른 문자 기반 Transformer

Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler
Charformer: 기울기 기반 하위어 토큰화를 통한 빠른 문자 기반 Transformer
초록

자연어 처리 분야의 최신 모델들은 개별적으로 고정된 서브워드 토큰화 알고리즘에 의존하고 있으며, 이는 모델의 일반화 능력과 새로운 환경에 대한 적응성을 제한한다. 본 논문에서는 모델 내부에 포함된 엔드투엔드 방식으로 서브워드 토큰화를 학습하는 새로운 모델 인덕티브 바이어스를 제안한다. 이를 위해 데이터 기반 방식으로 문자로부터 잠재적 서브워드 표현을 자동으로 학습할 수 있는 소프트 기반 서브워드 토큰화 모듈(GBST, Gradient-Based Subword Tokenization)을 도입한다. 구체적으로 GBST는 후보 서브워드 블록들을 열거하고, 블록 점수 네트워크를 사용하여 위치별로 각 블록의 점수를 학습한다. 또한 GBST를 통합하여 바이트 단위로 동작하는 깊은 트랜스포머 모델인 Charformer를 제안한다. 영어 GLUE, 다국어 및 노이즈가 포함된 텍스트 데이터셋에서 실시한 광범위한 실험을 통해, Charformer는 경쟁적인 바이트 수준 기반 기준 모델들을 능가하면서도, 일반적으로 서브워드 기반 모델들과 비슷하거나 때로는 더 뛰어난 성능을 보임을 확인하였다. 더불어 Charformer는 빠른 처리 속도를 제공하여, 기존 바이트 수준 및 서브워드 수준 트랜스포머 모델의 속도를 각각 28%에서 100%까지 향상시키면서도 경쟁력 있는 성능을 유지한다. 본 연구는 완전히 엔드투엔드로 학습되는 고성능의 토큰 없이도 작동하는 모델의 길을 여는 중요한 기여를 한다고 믿는다.

Charformer: 기울기 기반 하위어 토큰화를 통한 빠른 문자 기반 Transformer | 최신 연구 논문 | HyperAI초신경