HyperAIHyperAI

Command Palette

Search for a command to run...

LHGNN: ローカル-高次グラフニューラルネットワークを用いた音声分類とタグ付け

Shubhr Singh Emmanouil Benetos Huy Phan Dan Stowell

概要

トランスフォーマーは、自己注意機構を活用して音声データ内の複雑なパターンと依存関係を捉えることで、音声処理タスクにおいて新しい基準を設定しています。しかし、ペアワイズの相互作用に焦点を当てるため、異なる音声オブジェクトの識別に不可欠な高次関係の処理能力が制限されています。この制限に対処するために、本研究ではローカル・ハイヤー・オーダー・グラフニューラルネットワーク(LHGNN)を導入します。これは、グラフベースのモデルで、Fuzzy C-Meansクラスタリングから得られる高次データとローカル近傍情報を取り入れることにより、特徴量の理解を強化し、より広範な音声関係を捉えます。公開されている3つの音声データセットでの評価結果によると、LHGNNはすべてのベンチマークでトランスフォーマーに基づくモデルを上回り、かつ大幅に少ないパラメータで動作することが示されました。さらに、LHGNNはImageNet事前学習が不足しているシナリオでも明確な優位性を示しており、大規模な事前学習データがない環境での有効性と効率性が確認されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LHGNN: ローカル-高次グラフニューラルネットワークを用いた音声分類とタグ付け | 記事 | HyperAI超神経