17日前

コードスイッチング名前付きエンティティ認識のための階層的メタ埋め込み

Genta Indra Winata, Zhaojiang Lin, Jamin Shin, Zihan Liu, Pascale Fung
コードスイッチング名前付きエンティティ認識のための階層的メタ埋め込み
要約

複数の主要言語を話す国では、会話の中で異なる言語を混在させる現象を一般的に「コードスイッチング」と呼ぶ。これまでの研究では、この課題に対処するためのアプローチが主に単語レベルの側面、例えば単語埋め込み(word embeddings)に焦点を当てていた。しかし多くの場合、言語間で共通するサブワード(部分語)が存在する。特に関連性の高い言語においては顕著であるが、表面上は無関係に見える言語間でも同様の傾向が見られる。そこで本研究では、複数の単言語単語レベルおよびサブワードレベルの埋め込みを統合する能力を持つ階層的メタ埋め込み(Hierarchical Meta-Embeddings, HME)を提案する。これは、言語に依存しない語彙表現を学習することを目的としている。英語とスペイン語のコードスイッチングデータに対する固有名称抽出(Named Entity Recognition)タスクにおいて、本モデルは多言語環境下で最先端の性能を達成した。また、クロスリンガル設定において、本モデルは関連性の高い言語だけでなく、語源が異なる言語からも学習を可能にしていることを示した。さらに、異なるサブユニット(サブワード単位)を組み合わせることが、コードスイッチング現象に現れる固有名称を正確に捉える上で極めて重要であることを明らかにした。