2ヶ月前
CharacterBERT: 文字レベルのオープンボキャブラリ表現を実現するELMoとBERTの統合
Hicham El Boukkouri; Olivier Ferret; Thomas Lavergne; Hiroshi Noji; Pierre Zweigenbaum; Junichi Tsujii

要約
BERTの持つ強力な改善により、多くの最近の表現モデルが主な構成要素としてTransformerアーキテクチャを採用しており、その結果、ワードピーストークン化システムも引き継いでいます。ただし、このシステムはTransformersの概念とは直接関連していません。このシステムは文字の柔軟性と単語全体の効率性の良いバランスを達成すると考えられていますが、一般的なドメインから事前に定義されたワードピース語彙を使用することは必ずしも適切ではなく、特に専門的なドメイン(例:医療ドメイン)でモデルを構築する際には問題があります。さらに、ワードピーストークン化を採用することで、焦点が単語レベルからサブワードレベルに移り、モデルが概念的により複雑になり、実際には使いづらくなる可能性があります。これらの理由から、私たちはCharacterBERTという新しいBERTのバリエーションを提案します。CharacterBERTはワードピースシステムを完全に廃止し、代わりにキャラクタCNNモジュールを使用して単語全体をその構成文字に基づいて表現します。私たちはこの新しいモデルが様々な医療ドメインタスクにおいてBERTの性能を向上させるとともに、堅牢かつ単語レベル・オープンボキャブラリーの表現を生成することを示しています。