2달 전

ByT5: 토큰 없는 미래를 위한 사전 학습된 바이트-바이트 모델

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel
ByT5: 토큰 없는 미래를 위한 사전 학습된 바이트-바이트 모델
초록

가장 널리 사용되는 사전 훈련 언어 모델은 단어 또는 하위 단어 단위에 해당하는 토큰 시퀀스를 처리합니다. 이에 비해, 원시 텍스트(바이트 또는 문자)를 직접 처리하는 토큰 없는 모델은 여러 가지 장점이 있습니다: 모든 언어의 텍스트를 즉시 처리할 수 있으며, 노이즈에 더 강하고, 복잡하고 오류가 발생하기 쉬운 텍스트 전처리 파이프라인을 제거하여 기술 부채를 최소화합니다. 바이트 또는 문자 시퀀스는 토큰 시퀀스보다 길기 때문에, 과거의 토큰 없는 모델 연구에서는 원시 텍스트를 직접 처리하는 비용을 분산시키기 위해 새로운 모델 아키텍처를 도입한 경우가 많았습니다. 본 논문에서는 표준 트랜스포머 아키텍처를 최소한의 수정으로 바이트 시퀀스를 처리하도록 사용할 수 있음을 보입니다. 우리는 매개변수 개수, 학습 FLOPs(연산 횟수), 추론 속도 측면에서 이러한 교환 관계(trade-offs)를 특성화하고, 바이트 레벨 모델이 토큰 레벨 모델과 경쟁력 있다는 것을 보여줍니다. 또한, 바이트 레벨 모델이 노이즈에 대해 상당히 더 강하며, 철자와 발음에 민감한 작업에서 더 우수한 성능을 내는 것을 입증하였습니다. 우리의 기여로써, T5 아키텍처 기반의 새로운 사전 훈련 바이트 레벨 트랜스포머 모델 세트와 실험에 사용된 모든 코드 및 데이터를 공개합니다.

ByT5: 토큰 없는 미래를 위한 사전 학습된 바이트-바이트 모델 | 최신 연구 논문 | HyperAI초신경