HyperAIHyperAI

Command Palette

Search for a command to run...

HybridQA:表形式およびテキストデータ上のマルチホップ質問応答のためのデータセット

Wenhu Chen Hanwen Zha Zhiyu Chen Wenhan Xiong Hong Wang William Wang

概要

既存の質問応答データセットは、主にテキスト情報または知識ベース(KB)/テーブル情報といった同質的な情報に限定して処理することに焦点を当てている。しかし、人間の知識は異種の形式に分散して存在するため、同質的な情報のみに依存する場合、深刻なカバレッジの問題が生じる可能性がある。この課題を解決するため、本研究では、異種情報の推論を必要とする新しい大規模な質問応答データセット「HybridQA」(https://github.com/wenhuchen/HybridQA)を提案する。各質問は、Wikipediaのテーブルと、そのテーブル内のエンティティとリンクされた複数の自由形式の文書コーパスと対応付けられている。質問は、表形式の情報とテキスト情報の両方を統合して回答する必要があるように設計されており、いずれかの情報形式が欠落すると質問は回答不能となる。本研究では、以下の3種類のモデルを評価した:1)テーブル情報のみを利用するモデル、2)テキスト情報のみを利用するモデル、3)異種情報を統合して答えを導出するハイブリッドモデル。実験の結果、2つのベースラインモデルのEMスコアは20%を下回ったのに対し、ハイブリッドモデルはEMスコア40%以上を達成した。このスコアの差は、HybridQAにおいて異種情報の統合が不可欠であることを示唆している。しかしながら、ハイブリッドモデルの性能は人間の水準にはまだ大きく及ばない。したがって、HybridQAは、異種情報に基づく質問応答の研究に向けた挑戦的なベンチマークとして機能するものである


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています