
要約
検索クエリの理解は、ユーザーが一般的に「言葉のサラダ」のようなテキストを発行することに関連する難問です。しかし、クエリが整形式の質問に類似している場合、自然言語処理パイプラインはより正確な解釈を行うことができ、これにより下流の複合的な誤りが減少します。したがって、クエリが整形式であるかどうかを識別することは、クエリ理解を向上させることができます。本稿では、整形式の自然言語質問を識別する新しいタスクを紹介します。私たちは25,100件の公開された質問から構成され、整形式と非整形式のカテゴリーに分類されたデータセットを作成し公開しました。テストセットでの精度は70.7%でした。また、私たちの分類器が読み込み理解のために質問を生成するニューラルシーケンス・ツー・シーケンスモデルの性能向上に使用できることも示しています。