17日前
BioBERTpt - 臨床名前エンティティ認識向けポルトガル語ニューラル言語モデル
{Cláudia Maria Cabral Moro Barra, Douglas Teodoro, Emerson Cabrera Paraiso, Lucas Ferro Antunes de Oliveira, Yohan Bonescki Gumiel, Jenny Copara, Lucas Emanuel Silva e Oliveira, Julien Knafou, João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider}

要約
電子カルテデータの増加に伴い、非構造化臨床テキストから貴重な情報を抽出するための臨床NLPタスクの重要性が高まっている。近年、文脈依存型言語モデルの導入により、英語コーパスにおける名前付きエンティティ抽出(NER)をはじめとする下流NLPタスクの性能は顕著に向上しているが、リソースが限られた言語における臨床テキストに関する研究は依然として少ない。本研究の目的は、ポルトガル語用に設計された深層文脈埋め込みモデル「BioBERTpt」の有効性を評価し、臨床および生物医学分野におけるNERを支援することである。我々は、多言語BERTモデルで学習された知識を、ブラジルポルトガル語で書かれた臨床ノートおよび生物医学・科学論文のコーパスに転移させた。BioBERTptの性能評価のため、臨床ノートを含む2つのアノテーション済みコーパス上でNER実験を実施し、既存のBERTモデルと比較した。その結果、ドメイン特化型モデルであるBioBERTptは、F1スコアにおいてベースラインモデルを2.72%上回り、評価対象の13エンティティのうち11個で高い性能を達成した。本研究は、ドメイン特化の文献データを用いて文脈埋め込みモデルを拡充することで、特定のNLPタスクの性能向上に重要な役割を果たす可能性を示した。また、転移学習プロセスにより、ラベル付きデータの必要性が低下し、完全に新しいモデルの再学習を必要としなくてもよいという利点が明らかになった。