1ヶ月前

多モーダル差分ネットワークによる視覚的質問生成

Badri N. Patro; Sandeep Kumar; Vinod K. Kurmi; Vinay P. Namboodiri
多モーダル差分ネットワークによる視覚的質問生成
要約

画像から自然な質問を生成することは、視覚と言語のモダリティを使用してマルチモーダル表現を学習する意味論的なタスクです。画像には、場所、キャプション、タグなど、質問生成に重要な複数の視覚的および言語的なコンテキストが存在します。本論文では、これらの関連コンテキストを取得するためにエクセムプラ(exemplars)の使用を提案します。これにより、マルチモーダル差分ネットワーク(Multimodal Differential Network)を使用して自然で興味深い質問を生成することができます。人間の評価によって確認されたように、生成された質問は自然な質問と著しい類似性を示しています。さらに、提案手法は定量指標(BLEU, METEOR, ROUGE, および CIDEr)において最先端のベンチマークを大幅に上回ることが観察されました。

多モーダル差分ネットワークによる視覚的質問生成 | 最新論文 | HyperAI超神経