17日前
ピクセルを用いた言語モデリング
Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott

要約
言語モデルは有限の入力集合の上に定義されるため、対応言語数を拡張しようとする際に語彙のボトルネックが生じる。このボトルネックを克服することは、埋め込み行列に表現可能な内容と出力層における計算上の課題の間でトレードオフを伴う。本論文では、こうした課題をともに回避する「PIXEL(Pixel-based Encoder of Language)」を提案する。PIXELは、テキストを画像として表現する事により、文字体系の類似性やピクセルの共活性化に基づいて言語間の表現を転移可能にする、事前学習済みの言語モデルである。PIXELはトークンの確率分布を予測するのではなく、マスクされたピクセルパッチのピクセルを再構成するように学習されている。本研究では、BERTと同一の英語データを用いて8600万パラメータのPIXELモデルを事前学習し、文字体系が多様な言語(非ラテン文字を含む)における構文および意味処理タスクで評価を行った。その結果、事前学習データに含まれない文字体系(例:アラビア文字、ヒンディ文字など)において、PIXELはBERTを大幅に上回る性能を示したが、ラテン文字を扱う際にはややBERTに劣る結果となった。さらに、PIXELは文字体系的攻撃(orthographic attacks)や言語混用(linguistic code-switching)に対してBERTよりも高いロバスト性を示し、ピクセルを用いた言語モデリングがもたらす利点が裏付けられた。