HyperAIHyperAI

Command Palette

Search for a command to run...

ByT5: トークンのない未来に向けて、事前学習されたバイト対バイトモデルの開発

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

概要

最も広く使用されている事前学習言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスを処理します。これに対して、トークンフリーのモデルは直接生のテキスト(バイトや文字)を処理し、多くの利点があります。これらのモデルは、任意の言語のテキストを即座に処理でき、ノイズに対する堅牢性が高く、複雑でエラーが発生しやすいテキスト前処理パイプラインを削除することで技術的負債を最小限に抑えます。バイトや文字のシーケンスはトークンのシーケンスよりも長いことから、過去のトークンフリーのモデルに関する研究では、生のテキストを直接処理するコストを軽減する新しいモデルアーキテクチャがしばしば導入されてきました。本論文では、標準的なトランスフォーマー構造を使用して最小限の変更でバイトシーケンスを処理できることを示します。パラメータ数、訓練FLOPs(Floating Point Operations per Second)、推論速度という観点からトレードオフを特徴付け、バイトレベルのモデルがトークンレベルのモデルと競争力があることを示しています。また、バイトレベルのモデルがノイズに対して著しく堅牢であり、綴りや発音に敏感なタスクでの性能が高いことも示しています。本研究の一環として、T5アーキテクチャに基づく新しい事前学習済みバイトレベルトランスフォーマー模型群および実験で使用したすべてのコードとデータを公開します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ByT5: トークンのない未来に向けて、事前学習されたバイト対バイトモデルの開発 | 記事 | HyperAI超神経