
要約
質問応答(QA)は、人工知能(AI)および自然言語処理(NLP)分野における長年の研究課題であり、QAシステムに人間レベルの推論能力を付与しようとする多様な研究が行われてきた。人間の複雑な推論プロセスを模倣するため、最先端のQAシステムは、事前学習済み言語モデル(LM)を用いてLMに埋め込まれた知識にアクセスするとともに、知識グラフ(KG)上で推論を行うためにグラフニューラルネットワーク(GNN)に基づく精巧に設計されたモジュールを活用することが一般的である。しかし、こうしたGNNベースのモジュールの推論機能に関しては、多くの未解決の問題が残されている。これらのGNNモジュールは本当に複雑な推論プロセスを実行できるのか?それとも、QAに対して過剰に複雑すぎる、あるいは逆に不足しているのか?GNNのブラックボックスを解明し、これらの問題を検証するため、本研究では最先端のQA用GNNモジュールを分解し、その推論能力を分析した。その結果、知識に依存する推論に強く依存する、代表的なQAベンチマークデータセットであるCommonsenseQAおよびOpenBookQAにおいて、非常に単純なグラフニューラルカウンター(graph neural counter)が、既存のすべてのGNNモジュールを上回る性能を発揮することが明らかになった。本研究の成果は、現在の知識を意識したGNNモジュールが、実際には単純な推論(たとえば数え上げ)しか行えない可能性を示唆している。知識を活用したQAのための包括的な推論モジュールを構築するという課題は、依然として非常に困難なオープンな問題として残されている。