13日前

JBNU-CCLab at SemEval-2022 Task 12: 数式記号とその記述を結びつけるためのMachine Reading ComprehensionおよびSpan Pair Classification

{Seung-Hoon Na, Sung-Min Lee}
JBNU-CCLab at SemEval-2022 Task 12: 数式記号とその記述を結びつけるためのMachine Reading ComprehensionおよびSpan Pair Classification
要約

本稿では、SemEval-2022 タスク12「数学記号とその記述とのリンク」において、命名エンティティ抽出(NER)および関係抽出(RE)を含むすべてのサブタスクでリーダーボード首位を達成した当システムについて述べる。本システムは、SciBERTを基盤とする二段階パイプラインモデルであり、科学文書内における記号、記述およびそれらの関係を検出することを目的としている。システムは以下の2つのモジュールから構成される。1)機械読解(MRC)に基づくNERモデル:各エンティティタイプを質問として表現し、MRCモデルを用いてそのエンティティ出現部分(mention span)を回答として抽出する。2)スパンペア分類によるREモデル:2つのエンティティ出現とそれらのタイプマーカーをスパン表現に符号化し、その後、Softmax分類器に入力する。さらに、記号エンティティの正確な境界検出を向上させるため、ルールベースの記号トークナイザを導入している。関係抽出モデルの性能向上を図るため、正則化手法およびアンサンブル手法も検討した。

JBNU-CCLab at SemEval-2022 Task 12: 数式記号とその記述を結びつけるためのMachine Reading ComprehensionおよびSpan Pair Classification | 最新論文 | HyperAI超神経