2ヶ月前
Glyce: 中国語文字表現のためのグリフベクトル
Yuxian Meng; Wei Wu; Fei Wang; Xiaoya Li; Ping Nie; Fan Yin; Muyu Li; Qinghong Han; Xiaofei Sun; Jiwei Li

要約
表意文字言語である中国語のNLPタスクが、その言語の文字情報(グリフ情報)を使用することで恩恵を受けることは直感的な考えです。しかし、文字に豊富な象形的証拠が乏しいことと、標準的なコンピュータビジョンモデルが文字データに対して弱い汎化能力を持つことから、効果的にグリフ情報を活用する方法はまだ見つかっていません。本論文では、このギャップに対処するためにGlyce(中国語文字表現のためのグリフベクトル)を提案します。主に以下の3つの革新を行いました:(1) 金文、篆書体、漢字など、歴史的な中国文字を使用して文字の象形的証拠を豊かにしました;(2) 中国語文字画像処理に特化したCNN構造(天則格-CNNと呼ぶ)を設計しました;(3) 複数タスク学習設定において画像分類を補助タスクとして使用し、モデルの汎化能力を向上させました。実験結果から、グリフベースのモデルが単語/文字IDベースのモデルよりも広範な中国語NLPタスクで一貫して優れた性能を発揮することが示されました。命名エンティティ認識(NER)、中国語分割(CWS)、品詞タギング(POS)、文ペア分類、単一文分類タスク、依存解析、意味役割ラベリングなどの様々な中国語NLPタスクで新しい最先端の結果を達成しています。例えば、提案されたモデルはOntoNotesデータセットでのNERでF1スコア80.6を達成し、BERTより+1.5ポイント上回りました;また、テキスト分類における復旦大学コーパスではほぼ完全な精度99.8%を達成しました。コードはhttps://github.com/ShannonAI/glyce で入手可能です。