17日前

オーディオTransformer

Verma, Prateek, Berger, Jonathan

要約

過去20年間、CNNアーキテクチャは、特徴の階層的構造を学習することで、音声認識および認知に関する説得力のあるモデルを生み出してきた。コンピュータビジョン分野での成功に類似して、音声特徴の分類は、さまざまなデータセットおよびラベルに対して、特定のタスクに最適化することが可能である。実際、画像理解を目的とした類似のアーキテクチャが音響シーン解析にも有効であることが示されている。本研究では、畳み込み層を用いないTransformerベースのアーキテクチャを、生の音声信号に直接適用することを提案する。標準データセットであるFree Sound 50K（200のカテゴリを含む）において、本モデルは畳み込みモデルを上回り、最先端の性能を達成した。これは特に重要である。なぜなら、自然言語処理やコンピュータビジョンとは異なり、畳み込みアーキテクチャを上回る性能を達成するためには、事前学習（非教師あり学習）を行っていないからである。同じ訓練データセット上で、平均精度（mean average precision）のベンチマークに対して、著しい性能向上を示した。さらに、近年開発された畳み込みネットワーク由来のプーリング技術などを用いることで、Transformerアーキテクチャの性能をさらに向上させた。また、ウェーブレットから着想を得たマルチレート信号処理のアイデアをTransformerの埋め込み表現に適用することで、性能のさらなる向上を実現した。さらに、本モデルが非線形かつ定数でない帯域幅を持つフィルタバンクを学習することを示した。これは、ピッチ推定など他のタスクとは異なり、音声理解というタスクに適応した時間周波数フロントエンド表現を提供するものである。