2ヶ月前
エンドツーエンド音声処理の復讐:効率的な音声分類ネットワークへの強化手法
Gazneli, Avi ; Zimerman, Gadi ; Ridnik, Tal ; Sharir, Gilad ; Noy, Asaf

要約
画像分類タスクのための効率的なアーキテクチャと多様な拡張手法が提案され、広く研究されてきましたが、音声分類の最先端技術は依然として音声信号の多数の表現と大規模なアーキテクチャに依存しており、大規模データセットから微調整されています。音声の軽量性を活用し、新しい音声拡張手法を用いることで、我々は強力な汎化能力を持つ効率的なエンドツーエンドネットワークを提示することができました。様々なサウンド分類データセットでの実験により、当該手法の有効性と堅牢性が示され、さまざまな設定で最先端の結果を達成しています。公開コードは以下のURLから入手可能です:\href{https://github.com/Alibaba-MIIL/AudioClassification}{このHTTP URL}