18日前
教師なしIRにおける事前学習埋め込み出力の意味的拡張
{Giorgos Stamou, Chrysoula Zerva, Alexios Mandalios, Konstantinos Thomas, Giorgos Filandrianos, Edmund Dervakos}

要約
生物医学および臨床分野における科学文献の急激な増加により、研究者をはじめとする関係者が関心のある情報を特定することの難しさが顕著に増大している。さらに重要なのは、新しいトピックや研究成果が急速に登場する中で、関連するアノテーション付きデータの不足が教師ありアプローチの性能を妨げていることである。世界的な新型コロナウイルス感染症(COVID-19)パンデミックは、科学文献の未知領域を迅速かつ効率的に検索・ナビゲートする必要性を一層顕在化させた。本論文では、SNOMED-CTを用いて深層変換器(deep transformer)アーキテクチャを意味論的に強化し、教師なしの方法でユーザーの質問に応答する可能性を検討する。提案するシステムは、BERTモデルを用いて初期に取得された文書のうち、クエリに関連するものをフィルタリングおよび再ランクする試みを行う。この目的のため、クエリおよび文書にSNOMED-CTの概念を付加し、それら間の概念の共起(co-occurrence)に制約を課す。本手法はOHSUMEDデータセット上で評価され、競争力のある性能を示した。また、本手法を全テキスト論文(例:KaggleのCORD-19全テキストデータセットチャレンジ)に適用するためのアプローチについても提示する。