
要約
抽象照応の解消は、テキスト理解にとって重要だが難易度の高い課題である。しかし、表現学習の最近の進歩により、この課題がより具体的な目標となりつつある。抽象照応の中心的な特性は、照応詞が埋め込まれた照応文とその(通常非名詞的な)先行詞との関係を確立することである。本研究では、LSTM-シメジアンネットを使用して抽象照応がどのように先行詞に関連するかを学習する言及ランキングモデルを提案する。訓練データ不足を克服するために、人工的な照応文--先行詞ペアを生成した。我々のモデルはシェル名詞解消において最先端の結果を超える性能を示した。また、ARRAUコーパスの抽象照応サブセットにおける最初のベンチマーク結果も報告する。このコーパスは名詞的および代名詞的照応詞の混合とより広範な混乱要因により、より大きな挑戦となっている。我々は個別の照応詞データでの訓練なしに名詞的照応詞に対してベースラインを超える性能を持つモデル変種を見出したが、代名詞的照応詞については依然として遅れを取っている。我々のモデルは文法的に妥当な候補を選択し、文法構造を無視した場合でもより深い特徴を使用して候補を区別する。注:「LSTM-シメジアンネット」は「LSTM-Siamese Net」の一般的な日本語訳です。「ARRAUコーパス」は「ARRAU corpus」の直訳で、「ARRAU」は固有名詞として扱われます。「シェル名詞」も同様に固有名詞として扱われます。