15日前
Charformer:勾配に基づくサブワードトークン化を用いた高速な文字変換モデル
Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler

要約
自然言語処理における最先端モデルは、独立した固定されたサブワードトークン化アルゴリズムに依存しており、これにより一般化能力や新たな設定への適応性が制限されている。本論文では、モデルの誘導バイアスとして、サブワードトークン化をモデルの一部としてエンド・ツー・エンドで学習する新しいアプローチを提案する。この目的のために、データ駆動型のアプローチにより文字から潜在的なサブワード表現を自動的に学習する、ソフトな勾配ベースのサブワードトークン化モジュール(GBST: Gradient-Based Subword Tokenization)を導入する。具体的には、GBSTは候補となるサブワードブロックを列挙し、ブロックスコアリングネットワークを用いて位置ごとにスコアを学習する。さらに、GBSTを統合しバイトレベルで動作する深層TransformerモデルであるCharformerを提案する。英語GLUE、多言語、ノイズのあるテキストデータセットにおける広範な実験を通じて、Charformerが競争力のあるバイトレベルベースラインを上回りつつ、一般的にはサブワードベースモデルと同等あるいはそれ以上の性能を発揮することを示した。また、Charformerは高速であり、従来のバイトレベルおよびサブワードレベルTransformerの両方の処理速度を28%~100%向上させつつ、競争力のある精度を維持している。本研究が、完全にエンド・ツー・エンドで学習可能な高効率なトークンフリーモデルの実現に道を開くものであると確信している。