6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Nian Shao Erfan Loweimi Xiaofei Li

概要

音声イベント検出（Sound Event Detection, SED）は、音響環境分析の核心モジュールとして重要な役割を果たすが、データ不足という課題に直面している。半教師あり学習（Semi-Supervised Learning, SSL）の導入により、この問題は著しく緩和されつつあり、同時にアノテーションコストの追加も生じない。本研究では、SSLの主要なモジュールについて検討し、ランダム一貫性訓練（Random Consistency Training, RCT）戦略を提案する。まず、教師-生徒モデルと組み合わせて学習の安定性を向上させるため、自己一貫性損失（self-consistency loss）を提案する。次に、音声の加算特性を考慮して、ハードミックスアップ（hard mixup）というデータ拡張手法を導入する。さらに、異なる種類のデータ拡張を柔軟に組み合わせることを可能にするランダム拡張スキームを採用する。実験の結果、提案手法は他の広く用いられている手法を上回る性能を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Nian Shao Erfan Loweimi Xiaofei Li

概要

音声イベント検出（Sound Event Detection, SED）は、音響環境分析の核心モジュールとして重要な役割を果たすが、データ不足という課題に直面している。半教師あり学習（Semi-Supervised Learning, SSL）の導入により、この問題は著しく緩和されつつあり、同時にアノテーションコストの追加も生じない。本研究では、SSLの主要なモジュールについて検討し、ランダム一貫性訓練（Random Consistency Training, RCT）戦略を提案する。まず、教師-生徒モデルと組み合わせて学習の安定性を向上させるため、自己一貫性損失（self-consistency loss）を提案する。次に、音声の加算特性を考慮して、ハードミックスアップ（hard mixup）というデータ拡張手法を導入する。さらに、異なる種類のデータ拡張を柔軟に組み合わせることを可能にするランダム拡張スキームを採用する。実験の結果、提案手法は他の広く用いられている手法を上回る性能を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています