ユーザーログからの深層半教師付き対比クラスタリングを用いた意図検出と発見

意図検出(Intent Detection)は、対話システムにおける重要な構成要素であり、ユーザーの発話(utterance)をあらかじめ定義された複数の意図のいずれかに分類する目的を持つ。効果的な意図識別器を開発するためには、すべての可能なユーザー意図がラベル付けされたトレーニングデータセットが必要となる。しかし、実際のシステム設計段階では、熟練したドメイン専門家ですらすべての可能なユーザー意図を予見できないことが多く、実用的な応用においては、ユーザー発話から逐次的に新しい意図を即時(on-the-fly)に推定する必要がある。したがって、現実世界の対話システムにおいては、時間とともに意図の数が増加し、既存の意図セット以外の発話から新たな意図を発見する必要が生じる。本論文では、以下の2つの課題に取り組むことを目的とする:(i)少数のラベル付きサンプルをもとに、多数のラベルなし発話サンプルから既知の意図を検出すること、および(ii)残存するラベルなしサンプルから未知の新しい意図を発見すること。既存の最先端(SOTA)手法は、擬似ラベル(pseudo labels)を用いて表現学習(representation learning)を更新し、クラスタリングによって擬似ラベルを生成するという、交互に学習とクラスタリングを繰り返すアプローチを採用している。一方、本研究では、エポック単位でのクラスタリングの整合性に依存しない、エンドツーエンドの深層対照的クラスタリング(deep contrastive clustering)アルゴリズムを提案する。この手法は、教師あり学習と自己教師学習(self-supervised learning)を統合的に用いて、モデルパラメータとクラスタ中心を同時に更新し、ラベル付きデータとラベルなしデータの両方を最適に活用する。提案手法は、5つの公開データセットにおいて、以下の2つの設定で競合するベースラインを上回る性能を示した:(i)発見されていない意図の数が事前に分かっている状況、および(ii)アルゴリズムによって意図数を推定する状況。さらに、実用的な導入を想定した「人間を含むループ(human-in-the-loop)」バージョンも提案し、新規意図の数の事前推定を不要としつつ、エンドツーエンド手法を上回る性能を達成した。