2ヶ月前

多モーダル残差学習による視覚的QA

Jin-Hwa Kim; Sang-Woo Lee; Dong-Hyun Kwak; Min-Oh Heo; Jeonghee Kim; Jung-Woo Ha; Byoung-Tak Zhang

要約

深層ニューラルネットワークは、様々な手法により画像認識タスクの最先端を引き続き推進しています。しかし、これらの手法をマルチモダリティに適用する試みはまだ限られています。本稿では、視覚的な質問応答におけるマルチモーダルな残差学習を行うためのマルチモーダル残差ネットワーク（Multimodal Residual Networks: MRN）を提案します。これは深層残差学習のアイデアを拡張したものです。深層残差学習とは異なり、MRNは視覚情報と言語情報を効果的に組み合わせた共同表現を学習します。主なアイデアは、最近の研究で注目されている注意モデルの残差学習を利用して、要素ごとの乗算によって共同残差マッピングを行うことです。我々の研究に基づいて、マルチモダリティによって導入される様々な代替モデルが探求されています。その結果、Open-EndedおよびMultiple-ChoiceタスクにおいてVisual QAデータセットでの最先端の結果を達成しました。さらに、空間情報が失われている場合でも可視化できるように、バックプロパゲーションアルゴリズムを使用して各学習ブロックにおける共同表現の注意効果を可視化する新しい方法を紹介します。この翻訳では以下の点に注意しました：1. 内容准确：専門用語や技術概念（例：深層ニューラルネットワーク、マルチモーダル残差ネットワーク、視覚的な質問応答など）を正確に翻訳し、原文の意味を忠実に伝えています。2. 表达流畅：日本語の表現習慣に合わせて文章構造や単語選択を行いました。例えば、「These methods」は「これらの手法」と訳し、「We present」は「本稿では...を提案します」と訳しています。3. 表述正式：正式で客観的な書き方を使用し、口語的な表現は避けました。4. 忠于原文：原文の内容と高い一致を保ちつつ、日本語読者にとって自然な文章構造に調整しました。また、「Multimodal Residual Networks (MRN)」のような不馴染みの用語についてはカッコ内に原文を記載することで情報の一貫性を確保しています。