HyperAIHyperAI

Command Palette

Search for a command to run...

adversarial paraphrasingタスクを活用した並び替え検出の改善

Animesh Nighojkar John Licato

概要

二つの文が同じ意味を持つならば、それらは推論的性質(inferential properties)においても同等であるべきであり、すなわちそれぞれの文が他方をテクスト的に含意(textually entail)するべきである。しかし、現在広く用いられている多くのパラフレーズデータセットは、語彙の重複や構文の類似性に基づく「パラフレーズ感」に依存している。では、文の推論的性質に着目し、語彙的・構文的類似性に過度に依存しない方法でパラフレーズを識別できるように、これらのデータセットを学習させることは可能だろうか?本研究ではこの問いにアドバーシャル(adversarial)なアプローチを適用し、パラフレーズ識別用の新しいアドバーシャルデータセット作成法「アドバーシャル・パラフレージング・タスク(Adversarial Paraphrasing Task, APT)」を提案する。APTは、意味的に同等(互いに含意しあう意味を持つ)であるが、語彙的・構文的に著しく異なるパラフレーズを生成するよう参加者に依頼する。得られた文対は、パラフレーズ識別モデルの評価(現状ではほとんどランダムな精度にとどまる)に用いられ、その後モデルの性能向上にも活用できる。データセット生成を高速化するために、T5を用いたAPTの自動化を検討し、その結果得られたデータセットがモデルの精度向上に寄与することを示した。本研究は、パラフレーズ検出に関する新たな視点を提示し、パラフレーズ識別モデルが文レベルの意味的同等性をより正確に検出できるようになることを期待して、本データセットを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています