HyperAIHyperAI

Command Palette

Search for a command to run...

視覚対話におけるニューラルモジュールネットワークを使用した視覚コリファレンス解消

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

概要

視覚対話は、画像を基にした一連の質問に答えることを含み、対話履歴を文脈として使用します。視覚的な質問応答(VQA)が一回限りの対話と見なされる一方で、視覚対話にはさらに多くの課題があります。本研究では、特に視覚共参照解消という問題に焦点を当てます。これは、画像内の同じエンティティやオブジェクトインスタンスを指す言葉(通常は名詞句や代名詞)を特定することに関わる問題です。特に代名詞(例:it)の場合、対話エージェントはまずそれを以前の共参照(例:boat)と結びつける必要があります。その後、エージェントは共参照 boat の視覚的な根拠に基づいて代名詞 it について推論できます。これまでの研究では、視覚共参照解消が (a) 履歴上のメモリネットワークを通じて暗黙的に行われたり、(b) 質問全体に対して粗いレベルで行われたりしていましたが、フレーズレベルでの明示的な処理は行われていませんでした。本研究では、新しい2つのモジュールである「Refer」(参照)と「Exclude」(除外)を導入することで、より細かい単語レベルで明示的かつ視覚的に根ざした共参照解消を行うニューラルモジュールネットワークアーキテクチャを提案します。我々のモデルの有効性を示すために、MNIST Dialogデータセット(視覚的には単純だが共参照的には複雑なデータセット)においてほぼ完全な精度を達成し、またVisDialデータセット(実際の画像に基づく大規模かつ困難な視覚対話データセット)において他の手法よりも優れた性能を発揮し、より解釈可能で、視覚的に根ざしており、定性的に一貫性があることを証明しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています