2ヶ月前

TallyQA: 複雑なカウント質問への回答

Manoj Acharya; Kushal Kafle; Christopher Kanan
TallyQA: 複雑なカウント質問への回答
要約

視覚質問応答(VQA)データセットにおける大部分の数え上げに関する質問は単純であり、物体検出以上の処理を必要としません。本研究では、物体間の関係性、属性識別、推論などを含む複雑な数え上げ質問に焦点を当てたアルゴリズムを考察します。そのため、私たちは世界最大のオープンエンド型数え上げデータセットであるTallyQAを作成しました。本稿では、領域提案を使用する関係ネットワークを用いた新しい数え上げアルゴリズムを提案します。当方法により、高解像度画像において関係ネットワークを効率的に利用することが可能となりました。TallyQAおよびHowMany-QAベンチマークにおいて、ベースラインシステムや最近のシステムと比較して最先端の結果を得ています。

TallyQA: 複雑なカウント質問への回答 | 最新論文 | HyperAI超神経