HyperAIHyperAI

Command Palette

Search for a command to run...

再生してみよう:音声認識のための反復的アテンション

Alexandros Stergiou Dima Damen

概要

聴覚認知の重要な機能の一つは、時間の経過に伴い特徴的な音響をその意味内容と関連付けることである。微細な音声カテゴリを区別しようとする際、人間はしばしば識別に寄与する音声を繰り返し再生することで、予測の信頼性を高める。本研究では、選択的再再生を通じて音声系列全体にわたって最も識別的な音声に注目する、エンドツーエンド型のアテンションベースのアーキテクチャを提案する。本モデルは初期段階で音声系列全体を用い、スロットアテンションに基づいて反復的に時間的セグメントの再再生を精緻化する。各再生において、選択されたセグメントはより小さなホップ長で再再生され、これによりそのセグメント内における高解像度の特徴が表現される。実験の結果、本手法はAudioSet、VGG-Sound、EPIC-KITCHENS-100の3つの音声分類ベンチマークにおいて、一貫して最先端の性能を達成できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています