要約
畳み込みニューラルネットワーク(CNN)およびTransformerベースのネットワークは、近年、コンピュータビジョン分野における広範な導入を経て、さまざまな音声分類およびタグ付けタスクにおいて大きな注目を集めています。音声スペクトログラムと自然画像との間には情報分布の違いがあるにもかかわらず、音声分野に特化したレイヤーを用いたスペクトログラムからの効果的な情報抽出に関する研究はまだ限られています。本論文では、マルチアックスビジョントランスフォーマー(MaxViT)の力を活用し、時間、周波数、空間、チャネルの各次元間での相互作用を促進する「Decoupled Time-Frequency Audio Transformer(DTF-AT)」を提案します。提示されたDTF-ATアーキテクチャは、多様な音声および音声分類タスクにおいて厳密に評価され、一貫して最先端(SOTA)性能の新たなベンチマークを確立しました。特に、困難なAudioSet 2M分類タスクにおいて、モデルを初期化せずに学習させる場合に4.4%、ImageNet-1Kで事前学習された重みを初期値として用いる場合に3.2%の顕著な性能向上を達成しました。さらに、提案手法の影響力と有効性を検証するための包括的なアブレーションスタディを実施しました。コードベースおよび事前学習済み重みは、https://github.com/ta012/DTFAT.git にて公開されています。