8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

概要

トランスフォーマーを基盤とするモデルが自然言語処理（NLP）において大きな成功を収めたことから、これらのアーキテクチャを視覚や音声などの他の分野に適応させるための様々な試みが行われています。最近の研究では、トランスフォーマーが視覚と音声タスクで畳み込みニューラルネットワーク（CNNs）を上回ることが示されています。しかし、既に確立されたCNNsと比較して、トランスフォーマーの主要な欠点の一つは計算複雑さです。トランスフォーマーでは、計算量とメモリ使用量が入力長に比例して二次的に増大することが知られています。そのため、トランスフォーマーの最適化に関する多くの研究が行われてきましたが、しばしば予測性能の低下を伴うことが問題となっています。本研究では、音声スペクトログラムに対するトランスフォーマーの最適化と正則化の新しい手法を提案します。提案したモデルはAudiosetで新たな最先端の性能を達成し、単一の一般消費者向けGPUで訓練できるという特徴があります。さらに、我々はパフォーマンスと訓練速度の両面でCNNsを上回るトランスフォーマーモデルも提案しています。ソースコード: https://github.com/kkoutini/PaSST

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

概要

トランスフォーマーを基盤とするモデルが自然言語処理（NLP）において大きな成功を収めたことから、これらのアーキテクチャを視覚や音声などの他の分野に適応させるための様々な試みが行われています。最近の研究では、トランスフォーマーが視覚と音声タスクで畳み込みニューラルネットワーク（CNNs）を上回ることが示されています。しかし、既に確立されたCNNsと比較して、トランスフォーマーの主要な欠点の一つは計算複雑さです。トランスフォーマーでは、計算量とメモリ使用量が入力長に比例して二次的に増大することが知られています。そのため、トランスフォーマーの最適化に関する多くの研究が行われてきましたが、しばしば予測性能の低下を伴うことが問題となっています。本研究では、音声スペクトログラムに対するトランスフォーマーの最適化と正則化の新しい手法を提案します。提案したモデルはAudiosetで新たな最先端の性能を達成し、単一の一般消費者向けGPUで訓練できるという特徴があります。さらに、我々はパフォーマンスと訓練速度の両面でCNNsを上回るトランスフォーマーモデルも提案しています。ソースコード: https://github.com/kkoutini/PaSST

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

パッチアウトを用いた音声トランスフォーマーの効率的な学習 | 記事 | HyperAI超神経