7日前

トランスフォーマー時代における医療分野向け単語埋め込みの改善

Jiho Noh, Ramakanth Kavuluru
トランスフォーマー時代における医療分野向け単語埋め込みの改善
要約

バイオメディカル分野における単語埋め込み(word embeddings)は、通常、ニューラル手法を用いて自由テキストコーパス上で事前学習され、局所的およびグローバルな分布的性質を捉えます。これらの埋め込みは、タスク固有の目的関数を最適化するように設計されたさまざまなニューラルアーキテクチャを用いて、下流タスクで活用され、さらにその埋め込み自体を微調整(fine-tuning)することがあります。しかし2018年以降、ELMoやBERT、ULMFiTといった言語モデルを基盤とする文脈依存型埋め込み(contextual embeddings)への移行が顕著に進んでいます。これらの動的埋め込みは、文脈に基づいて同音異義語や略語を区別できるという利点を有しています。一方で、静的埋め込み(static embeddings)は、リソースが限られた環境(たとえばスマートデバイスやIoTデバイス)においても依然として有用であり、計算言語学の観点から語彙的意味構造(lexical semantics)を研究する上でも重要な役割を果たしています。本論文では、まずスキップグラム(skip-gram)法を用いて単語と概念の埋め込みを共同学習し、その後、バイオメディカル文献における共起するMedical Subject Heading(MeSH)概念間の相関関係を反映した情報によって、それらを微調整する手法を提案します。この微調整は、BERT変換器(transformer)アーキテクチャを二文入力モードで用い、MeSHペアの共起を捉える分類目的(classification objective)を設定することで実現しています。本研究の本質は、通常は動的埋め込みを生成するために用いられる変換器アーキテクチャを再利用し、概念間の相関関係を活用して静的埋め込みを改善することにあります。我々は、これまでの研究によって開発された複数の語関連性(word relatedness)データセットを用いて、微調整された静的埋め込みの性能を評価しました。従来の研究が概念や語彙を意図的に選別(culling)していたのに対し、本研究ではそのような選別を一切行わず、これまでにない包括的な評価を実施しました。その結果、あらゆる評価指標において明確な性能向上が確認されました。本研究で開発したコードおよび埋め込みモデルは、下流タスクや研究活動のため、公開しています:https://github.com/bionlproc/BERT-CRel-Embeddings

トランスフォーマー時代における医療分野向け単語埋め込みの改善 | 最新論文 | HyperAI超神経