2ヶ月前

ミキサーは単なるモデル以上のものである

Ji, Qingfeng ; Wang, Yuxin ; Sun, Letong
ミキサーは単なるモデル以上のものである
要約

最近、MLP(多層パーセプトロン)構造が再び注目を集めています。その中でも、MLP-Mixerは特に目立つ例となっています。コンピュータビジョンの分野では、MLP-Mixerはチャンネルとトークンの両方の観点からデータ情報を抽出する能力で知られており、効果的にチャンネル情報とトークン情報を融合しています。実際、Mixerはチャンネル情報とトークン情報を統合する情報抽出のパラダイムを代表しています。Mixerの本質は、異なる観点からの情報を混ぜ合わせる能力にあります。これはニューラルネットワークアーキテクチャにおける「混合」の真の概念を体現しています。チャンネルとトークンの観点を超えて、特定のタスク要件に更好地適応するために、さまざまな観点からよりカスタマイズされたミキサーを作成することが可能です。本研究では、音声認識の領域に焦点を当て、時間領域と周波数領域からの洞察を取り入れた新しいモデルであるAudio Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH)を紹介します。実験結果は、ASM-RHが音声データに特に適しており、複数の分類タスクにおいて有望な結果を示していることを示しています。モデルおよび最適な重みファイルは公開される予定です。

ミキサーは単なるモデル以上のものである | 最新論文 | HyperAI超神経