HyperAIHyperAI

Command Palette

Search for a command to run...

非対称マルチレイヤ融合を用いた深層マルチモーダル特徴表現の学習

Yikai Wang Fuchun Sun Ming Lu Anbang Yao

概要

我々は、単一のネットワーク内で複数の層にわたりマルチモーダル特徴を融合するコンパクトかつ効果的なフレームワークを提案する。このフレームワークは、2つの革新的な融合方式で構成されている。まず、従来のマルチモーダル手法が異なるモダリティごとに個別のエンコーダを必要としているのに対し、エンコーダ内にモダリティ固有のバッチ正規化層を維持するだけで、マルチモーダル特徴を共有された単一ネットワーク内で学習可能であることを検証した。これにより、共通の特徴表現学習を通じて暗黙的な融合が実現可能となる。第二に、マルチモーダル特徴を段階的に活用できる双方向的な多層融合方式を提案する。この方式を有効に活用するため、チャネルシャッフルとピクセルシフトの2種類の非対称融合演算を導入した。これらの演算は異なる融合方向に対して異なる融合特徴を学習可能であり、パラメータを必要としない一方で、チャネル間のマルチモーダル特徴相互作用を強化するとともに、チャネル内での空間的特徴の識別力を向上させる。本研究では、多様なモダリティをカバーする3つの公開データセットを用いて、セマンティックセグメンテーションおよび画像翻訳タスクにおいて広範な実験を実施した。実験結果から、提案フレームワークが汎用性に優れ、コンパクトであり、最先端の融合フレームワークを上回ることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
非対称マルチレイヤ融合を用いた深層マルチモーダル特徴表現の学習 | 記事 | HyperAI超神経