7日前

adversarial paraphrasingタスクを活用した並び替え検出の改善

Animesh Nighojkar, John Licato

要約

二つの文が同じ意味を持つならば、それらは推論的性質（inferential properties）においても同等であるべきであり、すなわちそれぞれの文が他方をテクスト的に含意（textually entail）するべきである。しかし、現在広く用いられている多くのパラフレーズデータセットは、語彙の重複や構文の類似性に基づく「パラフレーズ感」に依存している。では、文の推論的性質に着目し、語彙的・構文的類似性に過度に依存しない方法でパラフレーズを識別できるように、これらのデータセットを学習させることは可能だろうか？本研究ではこの問いにアドバーシャル（adversarial）なアプローチを適用し、パラフレーズ識別用の新しいアドバーシャルデータセット作成法「アドバーシャル・パラフレージング・タスク（Adversarial Paraphrasing Task, APT）」を提案する。APTは、意味的に同等（互いに含意しあう意味を持つ）であるが、語彙的・構文的に著しく異なるパラフレーズを生成するよう参加者に依頼する。得られた文対は、パラフレーズ識別モデルの評価（現状ではほとんどランダムな精度にとどまる）に用いられ、その後モデルの性能向上にも活用できる。データセット生成を高速化するために、T5を用いたAPTの自動化を検討し、その結果得られたデータセットがモデルの精度向上に寄与することを示した。本研究は、パラフレーズ検出に関する新たな視点を提示し、パラフレーズ識別モデルが文レベルの意味的同等性をより正確に検出できるようになることを期待して、本データセットを公開する。