17日前

BioNLI:敵対的例を生成するための語彙論的・意味論的制約を用いた生物医学NLIデータセットの構築

Mohaddeseh Bastan, Mihai Surdeanu, Niranjan Balasubramanian
BioNLI:敵対的例を生成するための語彙論的・意味論的制約を用いた生物医学NLIデータセットの構築
要約

自然言語推論(Natural Language Inference: NLI)は、生命医科学分野における複雑な意思決定において不可欠な技術である。たとえば、ある生命医科学的メカニズムが実験的証拠によって裏付けられているかどうかを判断するという課題は、NLIの枠組みで捉えられるが、この問題に対応できる直接的な利用可能なデータセットは存在しない。主な課題は、このタスクに有用なネガティブ例(否定例)を手動で作成することが困難かつ高コストである点にある。本研究では、既存の生命医科学データセットから、要約文に記載されたメカニズムと実験的証拠のペアを活用し、NLIデータセットを自動的に構築する新しい半教師付きプロセスを提案する。このプロセスでは、9種類の戦略を用いてネガティブ例を生成しており、その中には、エンティティ間の役割を逆転させるルールベースの操作に加え、神経論理的デコードシステムにおける論理的制約を用いた摂動(perturbation)による手法が含まれる。特に、後者のアプローチは、メカニズムの構造をより自然かつ多様に変化させることで、より現実的なネガティブ例の生成を可能にする。この手法を用いて、生命医科学分野におけるNLIを対象とした新しいデータセット「BioNLI」を構築し、最先端の2つの生命医科学分野向け分類器をベンチマークした。得られた最高のF1スコアは約70%台中盤にとどまり、タスクの困難さが示された。特に重要なのは、ネガティブ例のクラスごとの性能に顕著な差が見られることである。単純な役割変更によって生成されたネガティブ例ではF1スコアが97%に達する一方、神経論理的デコードによって生成されたネガティブ例では、たったランダム選択よりもわずかに高い性能にとどまっている。