2ヶ月前
階層エンコーダーとCRFを使用した対話行為シーケンスラベリング
Harshit Kumar; Arvind Agarwal; Riddhiman Dasgupta; Sachindra Joshi; Arun Kumar

要約
対話行為認識は、会話内の発話を対話行為(つまり、意味ラベル)に結びつけます。意味ラベルを発話に結びつける問題は、系列ラベリングの問題として扱うことができます。本研究では、双方向LSTMを基本ユニットとし、条件付き確率場(CRF)を最上層とする階層型再帰ニューラルネットワークを構築し、各発話を対応する対話行為に分類します。この階層型ネットワークは、単語レベル、発話レベル、会話レベルの複数のレベルでの表現を学習します。会話レベルの表現はCRF層への入力となり、この層はこれまでのすべての発話だけでなくそれらの対話行為も考慮に入れるため、ラベルと発話間の依存関係をモデル化します。これは自然な対話において重要な考慮事項です。我々の手法はSwitchboardデータセットとMeeting Recorder Dialogue Actデータセットという2つの異なるベンチマークデータセットで検証され、それぞれ現行最先端手法に対して2.2%および4.1%の絶対的な性能向上が示されました。特にSwitchboardデータセットにおけるアノテータ間合意率が84%であることを指摘すべきであり、我々の手法はノイジーなデータで訓練されたにもかかわらず約79%の精度を達成しています。