2ヶ月前

ByT5: トークンのない未来に向けて、事前学習されたバイト対バイトモデルの開発

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

要約

最も広く使用されている事前学習言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスを処理します。これに対して、トークンフリーのモデルは直接生のテキスト（バイトや文字）を処理し、多くの利点があります。これらのモデルは、任意の言語のテキストを即座に処理でき、ノイズに対する堅牢性が高く、複雑でエラーが発生しやすいテキスト前処理パイプラインを削除することで技術的負債を最小限に抑えます。バイトや文字のシーケンスはトークンのシーケンスよりも長いことから、過去のトークンフリーのモデルに関する研究では、生のテキストを直接処理するコストを軽減する新しいモデルアーキテクチャがしばしば導入されてきました。本論文では、標準的なトランスフォーマー構造を使用して最小限の変更でバイトシーケンスを処理できることを示します。パラメータ数、訓練FLOPs（Floating Point Operations per Second）、推論速度という観点からトレードオフを特徴付け、バイトレベルのモデルがトークンレベルのモデルと競争力があることを示しています。また、バイトレベルのモデルがノイズに対して著しく堅牢であり、綴りや発音に敏感なタスクでの性能が高いことも示しています。本研究の一環として、T5アーキテクチャに基づく新しい事前学習済みバイトレベルトランスフォーマー模型群および実験で使用したすべてのコードとデータを公開します。