11日前

「ノー」とは「ノー」である;適切でないモデリングアプローチであり、内蔵された推測的文脈を有する

{Amit Gautam, Akshayraj M, Priya Tiwary}
要約

動機:医療データは本質的に複雑であり、記録に登場する用語は通常、異なる文脈で使用されるため、その理解には高度な文脈把握能力が求められる。本研究では、BioBERT、BioELECTRA、PubMedBERTといった代表的な生物医療分野向けモデルが「否定および推測文脈」をどの程度正確に捉えているかを検証した。その結果、これらのモデルが「否定された文脈」と「否定されていない文脈」を区別できていないことが明らかになった。モデルの理解度を評価するため、否定文の埋め込み表現と非否定文の埋め込み表現のペア間におけるコサイン類似度スコアを用いた。モデルの性能向上のため、合成データセットを活用した汎用的なスーパータイニング(super-tuning)手法を提案した。結果:スーパータイニングを適用した後、モデルの埋め込み表現が否定および推測文脈をより適切に捉えるようになっていることが確認された。さらに、スーパータイニング済みモデルをさまざまなタスクに微調整したところ、従来モデルを上回る性能を示し、BioScopeの要約文およびSherlockデータセットにおける否定検出、推測キュー検出、スコープ検出の各タスクで、現在の最先端(SOTA)水準に到達した。また、スーパータイニング後も、自然言語推論(Natural Language Inference)などの他のタスクにおいてモデル性能にほとんど悪影響を与えないことが確認され、本手法の汎用性とバランスの良さが裏付けられた。

「ノー」とは「ノー」である;適切でないモデリングアプローチであり、内蔵された推測的文脈を有する | 最新論文 | HyperAI超神経