2ヶ月前
多文書読解のための深層カスケードモデル
Ming Yan; Jiangnan Xia; Chen Wu; Bin Bi; Zhongzhou Zhao; Ji Zhang; Luo Si; Rui Wang; Wei Wang; Haiqing Chen

要約
オンライン質問応答システムを設計する際には、効果性と効率性の間で基本的なトレードオフが存在し、そのバランスを取る必要があります。効果性は抽出型機械読解(MRC)などの洗練された機能から得られますが、効率性は候補文書選択や段落ランキングなどの初期検索部品の改善によって得られます。現実世界の複数文書MRCシナリオの複雑さを考えると、エンドツーエンドシステムにおいて両方を同時に最適化することは困難です。この問題に対処するために、我々は新しい深層カスケード学習モデルを開発しました。このモデルは、候補テキストの文書レベルおよび段落レベルでのランキングから始まり、機械読解を使用してより正確な回答抽出へと進化します。具体的には、効率性を考慮して最初に単純な関数を使用して無関係な文書や段落をフィルタリングします。その後、残ったテキストに対してドキュメント抽出、段落抽出、回答抽出の3つのモジュールを共同で訓練することで、回答の追跡をよりよく行います。実験結果は、提案手法が大規模な複数文書ベンチマークデータセットであるTriviaQAとDuReaderにおいて従来の最先端手法よりも優れていることを示しています。さらに、我々のオンラインシステムは1日に何百万件ものリクエストを受け付けられる典型的なシナリオで50ミリ秒未満で安定したサービスを提供できます。