8ヶ月前

音声および音声処理

アプローチ／フレームワーク

オーディオ

Pengfei Cai Yan Song Kang Li Haoyu Song Ian McLoughlin

概要

音響イベント検出（SED）手法において、大規模な事前学習済みトランスフォーマーエンコーダネットワークを活用することで、最近のDCASEチャレンジで有望な性能が示されています。しかし、時間依存性をモデル化するために依然としてRNNベースのコンテキストネットワークに依存しており、これは主にラベル付きデータの不足によるものです。本研究では、マスク再構築に基づく事前学習を行う純粋なトランスフォーマー基盤のSEDモデルであるMAT-SEDを提案します。具体的には、相対位置エンコーディングを持つトランスフォーマーをまずコンテキストネットワークとして設計し、自己監督的な方法で利用可能なすべてのターゲットデータに対してマスク再構築タスクにより事前学習を行います。エンコーダとコンテキストネットワークは半教師ありの方法で共同ファインチューニングされます。さらに、グローバル-ローカル特徴量融合戦略を提案し、位置特定能力を向上させます。MAT-SEDのDCASE2023タスク4における評価は最新の最先端性能を超え、それぞれPSDS1/PSDS2で0.587/0.896という結果を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

アプローチ／フレームワーク

オーディオ

Pengfei Cai Yan Song Kang Li Haoyu Song Ian McLoughlin

概要

音響イベント検出（SED）手法において、大規模な事前学習済みトランスフォーマーエンコーダネットワークを活用することで、最近のDCASEチャレンジで有望な性能が示されています。しかし、時間依存性をモデル化するために依然としてRNNベースのコンテキストネットワークに依存しており、これは主にラベル付きデータの不足によるものです。本研究では、マスク再構築に基づく事前学習を行う純粋なトランスフォーマー基盤のSEDモデルであるMAT-SEDを提案します。具体的には、相対位置エンコーディングを持つトランスフォーマーをまずコンテキストネットワークとして設計し、自己監督的な方法で利用可能なすべてのターゲットデータに対してマスク再構築タスクにより事前学習を行います。エンコーダとコンテキストネットワークは半教師ありの方法で共同ファインチューニングされます。さらに、グローバル-ローカル特徴量融合戦略を提案し、位置特定能力を向上させます。MAT-SEDのDCASE2023タスク4における評価は最新の最先端性能を超え、それぞれPSDS1/PSDS2で0.587/0.896という結果を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています