2ヶ月前

深層複雑ネットワーク

Chiheb Trabelsi; Olexa Bilaniuk; Ying Zhang; Dmitriy Serdyuk; Sandeep Subramanian; João Felipe Santos; Soroush Mehri; Negar Rostamzadeh; Yoshua Bengio; Christopher J Pal
深層複雑ネットワーク
要約

現在、深層学習の大部分の構成要素、技術、およびアーキテクチャは実数値の操作と表現に基づいています。しかし、リカレントニューラルネットワークに関する最近の研究と古い基本的な理論分析は、複素数がより豊かな表現能力を持ち、またノイズに強い記憶再生メカニズムを容易にする可能性があることを示唆しています。これらの魅力的な特性や全く新しいニューラルアーキテクチャを開発する潜在的可能性にもかかわらず、複素数値の深層ニューラルネットワークは必要な構成要素が欠如しているため軽視されてきました。本研究では、複素数値の深層ニューラルネットワークに不可欠な主要な原子的構成要素を提供し、それらを畳み込みフィードフォワードネットワークおよび畳み込みLSTM(Long Short-Term Memory)に適用します。具体的には、複素数畳み込みに依存し、複素数バッチ正規化アルゴリズム、複素数値ニューラルネットワーク用の重み初期化戦略を提示し、エンドツーエンド訓練スキームでの実験で使用します。我々はこのような複素数値モデルが実数値モデルと同等の性能を持つことを示します。深層複素モデルをいくつかのコンピュータビジョンタスク、MusicNetデータセットを使用した音楽転写タスク、TIMITデータセットを使用した音声スペクトル予測タスクでテストしました。これらの音響関連タスクにおいて最先端の性能を達成しました。