17日前

視覚質問応答における人間水準の達成

Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin

論文の詳細を見る

要約

視覚質問応答（Visual Question Answering: VQA）タスクは、画像の視覚情報と自然言語の分析を統合して、画像に関するテキスト形式の質問に回答するものであり、過去10年間でその応用範囲が拡大し、研究分野として注目を集めている。本論文では、アリババ・ダモアカデミー機械知能研究所（Machine Intelligence Lab of Damo Academy）が開発したマルチモーダル理解用エンコーダ・デコーダ群「AliceMind-MMU（ALIbaba’s Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding）」に関する最近の研究成果を紹介する。このモデルは、VQAタスクにおいて人間と同等、あるいはわずかに上回る性能を達成している。その実現には、以下の3つの段階的改善が不可欠である：（1）視覚的・言語的特徴表現を包括的に用いた事前学習；（2）「注目（attend）する能力を学ぶ」ことで効果的なクロスモーダル相互作用を実現；（3）複雑なVQAタスクに対応するための専門的なエキスパートモジュールを備えた新規な知識マイニングフレームワークの導入。異なる種類の視覚的質問にそれぞれ適した専門知識を適用するアプローチが、本VQAアーキテクチャの性能を人間レベルまで引き上げる上で重要な役割を果たしている。本研究の有効性を裏付けるため、広範な実験および詳細な分析が実施された。