HyperAIHyperAI

Command Palette

Search for a command to run...

VLC-BERT:文脈化された共通知識を用いた視覚的質問応答

Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz

概要

視覚的質問応答(VQA)タスクにおいて、画像に直接記載されている内容を超えた推論を要する問題の解決に注目が集まっている。本研究では、常識的推論を必要とする質問に焦点を当てる。従来の手法が静的知識ベースから知識を注入するのに対し、本研究では人間が編集した知識ベースで学習された既存の知識モデルであるCommonsense Transformer(COMET)を用いて、文脈に応じた知識を統合するアプローチを検討する。我々は、新しい事前学習済みの視覚・言語・常識統合型TransformerモデルであるVLC-BERTを提案し、視覚的およびテキスト的ヒントと並行して、外部の常識的知識を生成・選択・符号化する手法を構築した。OK-VQAおよびA-OKVQAという知識集約型のデータセットを用いた評価において、VLC-BERTが静的知識ベースを利用する既存モデルを上回ることを示した。さらに詳細な分析を通じて、COMETから得られる文脈化された常識的知識がどのような質問に有効であり、またどのような質問には効果が薄いのかを明らかにした。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています