
要約
曖昧な代名詞の解釈は、自然言語理解における長年の課題です。最近の研究では、最先端の共参照解釈システムにジェンダーバイアスが存在することが示唆されています。例えば、Google AI ランゲージチームは最近、ジェンダーバランスを取ったデータセットを公開し、これらの共参照解釈システムの性能がそのデータセット上で著しく制限されていることを示しました。本論文では、この制限を克服し、ジェンダーバイアス(0.99)を大幅に低減する抽出型質問応答(QA)形式の代名詞解釈タスクを提案します。このシステムは、事前学習された BERT モデルから微調整された表現を使用しており、手動で設計された特徴量を使わずに既存のベースラインよりも大幅に優れた性能(F1 スコアで 22.2% の絶対的な改善)を達成しています。また、代名詞の候補先行詞に関する知識がなくても同等の性能を発揮します。QA と BERT を基盤とする複数選択およびシーケンス分類モデルのアンサンブルにより、さらに F1 スコアが向上(ベースラインに対して 23.3% の絶対的な改善)しました。このアンサンブルモデルは、第1回 ACL 自然言語処理におけるジェンダーバイアスワークショップの共有タスクに提出され、最終公式リーダーボードで9位となりました。ソースコードは https://github.com/rakeshchada/corefqa で利用可能です。