HyperAIHyperAI

Command Palette

Search for a command to run...

ディープマルチモーダルニューラルアーキテクチャサーチ

Zhou Yu Yuhao Cui Jun Yu Meng Wang Dacheng Tao Qi Tian

概要

深層マルチモーダル学習において、効果的なニューラルネットワークの設計は根本的に重要である。従来の多くは単一のタスクに焦点を当て、手動でニューラルアーキテクチャを設計しており、タスクに特化しすぎて異なるタスクへの一般化が困難である。本論文では、さまざまなマルチモーダル学習タスクに対応可能な汎用的な深層マルチモーダルニューラルアーキテクチャ探索(MMnas)フレームワークを提案する。マルチモーダル入力を前提に、まず基本的な演算(primitive operations)の集合を定義し、その後、深層エンコーダ-デコーダ構造に基づく統一されたバックボーンを構築する。このバックボーンにおいて、各エンコーダまたはデコーダブロックは、事前に定義された演算プールから探索された演算に対応する。この統一されたバックボーンの上に、タスクに応じたヘッドを接続することで、異なるマルチモーダル学習タスクに対応する。勾配ベースのNAS(Neural Architecture Search)アルゴリズムを用いることで、異なるタスクに最適なアーキテクチャを効率的に学習することができる。広範なアブレーションスタディ、包括的な分析および比較実験の結果から、提案手法により得られたMMnasNetは、視覚質問応答(VQA)、画像-テキストマッチング、視覚的接地(visual grounding)の3つのマルチモーダル学習タスク(5つのデータセットを用いて)において、既存の最先端手法を大きく上回ることが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ディープマルチモーダルニューラルアーキテクチャサーチ | 記事 | HyperAI超神経