BanglaCoNER:ロバストなバングラ語複雑名前エンティティ認識への道標

命名エンティティ認識(Named Entity Recognition, NER)は、自然言語処理における基本的なタスクであり、テキスト内の命名エンティティを同定および分類することを目的としている。しかし、世界で7番目に多く話されている言語であるバングラ語において、複雑な命名エンティティ認識に関する研究は依然として不足している。複雑命名エンティティ認識(Complex Named Entity Recognition, CNER)は、従来のNERよりも高い難易度を有しており、特にバングラ語では一般的でない複合的・複雑なエンティティを同定・分類する必要がある。本論文では、バングラ語複雑命名エンティティ認識チャレンジ(BanglaCoNER)の優勝解法を提示し、バングラ語用のCNERタスクを対象として、条件付き確率場(Conditional Random Fields, CRF)およびTransformerベースの深層学習モデル(BanglaBERTを含む)を用いた微調整(fine-tuning)という2つのアプローチを検証した。データセットは、学習用に15,300文、検証用に800文を含み、.conll形式で提供された。データセットに対する探索的データ分析(Exploratory Data Analysis, EDA)の結果、7種類のNERタグが存在することが確認された。また、英語語彙の顕著な出現が見られたことから、このデータセットは合成データであり、翻訳プロセスによって生成された可能性が高いと推察された。我々は、品詞(Part of Speech, POS)タグ、語尾情報、ガゼッター(Gazetteers)、および埋め込みからのクラスタ情報といった多様な特徴量の組み合わせを検証した一方で、バングラ語用のBanglaBERT(large)モデルをNERタスクに向け微調整した。その結果、すべての言語的パターンが人間にとって直感的であるとは限らず、むしろ深層学習モデルが自然言語処理、特にCNERタスクにおいてより効果的であることが示された。微調整済みのBanglaBERT(large)モデルは、検証セットにおいてF1スコア0.79を達成した。総合的に、本研究はバングラ語における複雑命名エンティティ認識の重要性、特に合成データセットを用いた文脈においてその意義を強調している。また、BanglaBERTをはじめとする深層学習モデルが、バングラ語におけるNERタスクに有効であることを実証した。