2ヶ月前

構造的および部分的な観測を用いた視覚対話の推論

Zilong Zheng; Wenguan Wang; Siyuan Qi; Song-Chun Zhu
構造的および部分的な観測を用いた視覚対話の推論
要約

視覚対話のタスクにおいて複雑な対話構造を処理するための新しいモデルを提案します。現在の質問と対話履歴に基づいて合理的な回答を得るには、対話エンティティ間の潜在的な意味的依存関係が不可欠です。本論文では、このタスクを部分的に観測されたノードと未知のグラフ構造(対話内の関係)を持つグラフィカルモデルでの推論として明示的に形式化します。与えられた対話エンティティは観測されたノードとして扱います。与えられた質問に対する回答は、値が欠落しているノードで表現されます。まず、期待最大化アルゴリズム(Expectation Maximization algorithm)を導入し、潜在的な対話構造と欠落しているノード値(望ましい回答)の両方を推論します。此基础上,我们进而提出了一种可微分的图神经网络(GNN)解决方案来近似这一过程。VisDialおよびVisDial-Qデータセットでの実験結果は、当モデルが比較手法を上回ることを示しています。また、当手法がより良い対話推論のために潜在的な対話構造を推論できることも確認されています。注:「基础上」在日语中可以翻译为「此基础上」,但为了使句子更加流畅,这里进行了适当的调整,翻译为「その上で」。修正后的翻译:視覚対話のタスクにおいて複雑な対話構造を処理するための新しいモデルを提案します。現在の質問と対話履歴に基づいて合理的な回答を得るには、対話エンティティ間の潜在的な意味的依存関係が不可欠です。本論文では、このタスクを部分的に観測されたノードと未知のグラフ構造(対話内の関係)を持つグラフィカルモデルでの推論として明示的に形式化します。与えられた対話エンティティは観測されたノードとして扱います。与えられた質問に対する回答は、値が欠落しているノードで表現されます。まず、期待最大化アルゴリズム(Expectation Maximization algorithm)を導入し、潜在的な対話構造と欠落しているノード値(望ましい回答)の両方を推論します。その上で、当手法に従って、この過程を近似する可微分グラフニューラルネットワーク(GNN: Graph Neural Network)ソリューションを提案します。VisDialおよびVisDial-Qデータセットでの実験結果は、当モデルが比較手法を上回ることを示しています。また、当手法がより良い対話推論のために潜在的な対話構造を推論できることも確認されています。

構造的および部分的な観測を用いた視覚対話の推論 | 最新論文 | HyperAI超神経