Command Palette
Search for a command to run...
専門分野向けの埋め込み戦略:臨床エンティティ認識への応用
専門分野向けの埋め込み戦略:臨床エンティティ認識への応用
Pierre Zweigenbaum Olivier Ferret Hicham El Boukkouri Thomas Lavergne
概要
自然言語処理(NLP)分野において、事前学習済み単語埋め込み(word embeddings)を深層学習モデルと併用する手法は、現在の「デ・ファクト」なアプローチとなっている。このアプローチは一般的に満足のいく結果をもたらすが、臨床レポートなど専門的ドメインのテキストに対しては、市販の単語埋め込みは性能が劣ることが多い。また、ドメイン内データが十分に豊富でないため、専門的単語表現を从来から訓練することは、しばしば不可能または効果が薄い。本研究では、こうした課題に直面する臨床ドメインに注目し、一般ドメインのリソースのみに依拠する埋め込み戦略の検討を行う。本研究では、タスクデータから小規模なドメイン内コーパスを構築し、その上で静的単語埋め込み(word2vec)を学習した上で、事前学習済みの文脈依存埋め込み(ELMo)と組み合わせることで、大規模な医療ドメインコーパスから学習された表現と同等、あるいはそれ以上に優れた性能を達成できることを示した。