
要約
超微細エンティティタイプ指定(UFET)というタスクは、文に登場するエンティティの適切なタイプを表す多様で自由な語やフレーズを予測することを目的としている。このタスクにおける主要な課題は、タイプの数が膨大であることと、各タイプに対するアノテーションデータが極めて少ないことにある。従来のシステムはこのタスクを多クラス分類問題として定式化し、直接的または遠隔的(distant)に教師付きの分類器を学習している。しかし、これには二つの問題が生じる:(i) タイプがしばしばインデックスに変換されるため、分類器はタイプの意味情報を捉えられない;(ii) このようにして構築されたシステムは、あらかじめ定義されたタイプ集合内での予測に限定され、訓練データにほとんど現れないか、まったく見られないタイプへの一般化能力に欠ける。本研究では、エンティティタイプ指定を自然言語推論(NLI)問題として定式化する新しいアプローチ「LITE」を提案する。この手法は、(i) NLIからの間接的教師信号を活用して、テキスト形式の仮説として意味的に適切に表現されたタイプ情報を推論し、データ不足の問題を緩和する点、および (ii) タイプ集合をあらかじめ定義しなくてもよい学習のためのランキング学習(learning-to-rank)目的関数を採用する点で特徴がある。実験の結果、限られた訓練データのもとでも、LITEはUFETタスクにおいて最先端の性能を達成した。さらに、LITEは他の微細なエンティティタイプ指定ベンチマークでも優れた結果を示すとともに、特に重要なことに、事前学習済みのLITEモデルが訓練データに含まれなかったタイプを含む新しいデータに対しても良好な性能を発揮することを示した。