要約
オンデバイスキーワードスポットティング(KWS)は、スマートエッジデバイスにおけるウェイクアップおよびユーザーインタラクションのための重要な要素である。従来の低フットプリントモデルは主に2次元および1次元畳み込みに依拠しており、前者は不変性の捉え方に優れている一方、後者はより高速な推論を実現する。本研究では、KWSタスクにおける有効な音響モデリングの代替手段として、四元数ニューラルモデルの可能性を検討する。四元数モデルは、入力特徴の多様な側面を四元数空間の複数次元に統合して表現できるため、従来のモデルと比較してより小型かつ効率的なモデル構成が可能となる。本研究では、Google Command V2データセット上で代表的なKWSモデルの四元数版を用いてその有効性を実証し、既存モデルと同等の性能を達成することを示した。さらに、四元数ネットワークにおける学習挙動について広範な分析を行い、他の音声/音響タスクへの応用における四元数モデルの有用性を裏付ける証拠を提供している。