
要約
本論文では、従来のタプルベースのエンドツーエンド(TE2E)損失関数よりも話者認証モデルの学習を効率化する新しい損失関数である一般化されたエンドツーエンド(GE2E)損失関数を提案します。TE2Eとは異なり、GE2E損失関数は各学習ステップで認証が難しい例に重点を置いたネットワークの更新を行います。さらに、GE2E損失関数は事前の例選択フェーズを必要としません。これらの特性により、新しい損失関数を使用したモデルは話者認証の等誤差率(EER)を10%以上低下させるとともに、学習時間を60%削減することができます。また、複数のキーワード(例えば「OK Google」および「Hey Google」)や複数の方言をサポートするより正確なモデルの学習を可能にするMultiReader技術についても紹介します。