2ヶ月前
LHGNN: ローカル-高次グラフニューラルネットワークを用いた音声分類とタグ付け
Singh, Shubhr ; Benetos, Emmanouil ; Phan, Huy ; Stowell, Dan

要約
トランスフォーマーは、自己注意機構を活用して音声データ内の複雑なパターンと依存関係を捉えることで、音声処理タスクにおいて新しい基準を設定しています。しかし、ペアワイズの相互作用に焦点を当てるため、異なる音声オブジェクトの識別に不可欠な高次関係の処理能力が制限されています。この制限に対処するために、本研究ではローカル・ハイヤー・オーダー・グラフニューラルネットワーク(LHGNN)を導入します。これは、グラフベースのモデルで、Fuzzy C-Meansクラスタリングから得られる高次データとローカル近傍情報を取り入れることにより、特徴量の理解を強化し、より広範な音声関係を捉えます。公開されている3つの音声データセットでの評価結果によると、LHGNNはすべてのベンチマークでトランスフォーマーに基づくモデルを上回り、かつ大幅に少ないパラメータで動作することが示されました。さらに、LHGNNはImageNet事前学習が不足しているシナリオでも明確な優位性を示しており、大規模な事前学習データがない環境での有効性と効率性が確認されています。