
要約
対話行為認識(DAR)は、発話に意味ラベルを付与し、話者の意図を特徴付けることを目指す対話解釈における難問です。現在、多くの既存の手法が多クラス分類から構造予測までDAR問題を定式化していますが、これらの手法は手作業による特徴量の拡張や注意に基づく文脈的な構造的依存関係に苦慮しています。本論文では、エンドツーエンドの学習を放棄せずに、より豊かな条件付き確率場(CRF: Conditional Random Field)の構造的依存関係を拡張する観点からDAR問題を取り扱います。我々は発話モデルに階層的な意味推論とメモリ機構を組み込みます。次に、文脈的な発話と対応する対話行為の両方を考慮する線形チェーン条件付き確率場レイヤーへの構造的アテンションネットワークの拡張を行います。主要なベンチマークデータセットであるスイッチボード対話行為(SWDA: Switchboard Dialogue Act)データセットとミーティングレコーダー対話行為(MRDA: Meeting Recorder Dialogue Act)データセットでの広範な実験結果から、我々の方法が他の最先端の解決策よりも優れた性能を達成していることが示されました。特に注目に値するのは、SWDAにおいて我々の方法が人間アノテーターの性能に2%未満の差で迫っていることです。