HyperAIHyperAI

Command Palette

Search for a command to run...

ミキサーは単なるモデル以上のものである

Ji Qingfeng ; Wang Yuxin ; Sun Letong

概要

最近、MLP(多層パーセプトロン)構造が再び注目を集めています。その中でも、MLP-Mixerは特に目立つ例となっています。コンピュータビジョンの分野では、MLP-Mixerはチャンネルとトークンの両方の観点からデータ情報を抽出する能力で知られており、効果的にチャンネル情報とトークン情報を融合しています。実際、Mixerはチャンネル情報とトークン情報を統合する情報抽出のパラダイムを代表しています。Mixerの本質は、異なる観点からの情報を混ぜ合わせる能力にあります。これはニューラルネットワークアーキテクチャにおける「混合」の真の概念を体現しています。チャンネルとトークンの観点を超えて、特定のタスク要件に更好地適応するために、さまざまな観点からよりカスタマイズされたミキサーを作成することが可能です。本研究では、音声認識の領域に焦点を当て、時間領域と周波数領域からの洞察を取り入れた新しいモデルであるAudio Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH)を紹介します。実験結果は、ASM-RHが音声データに特に適しており、複数の分類タスクにおいて有望な結果を示していることを示しています。モデルおよび最適な重みファイルは公開される予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています