
要約
本稿では、事前学習された言語モデルを用いた会話内感情認識(ERC)に関する先駆的な取り組みを報告する。従来のドキュメントとは異なり、会話の発話は複数の発話者によって交互に生成され、過去の研究では通常、階層的な構造として整理されている。このような構造は、XLNetなどの事前学習された言語モデルの適用には不適切である。この問題に対処するため、より長い歴史的文脈を記憶できる強化されたメモリと、複数発話者構造に対応するための会話に特化した自己注意機構を備えた、統合型のXLNetモデルであるDialogXLを提案する。具体的には、XLNetの再帰メカニズムをセグメントレベルから発話レベルに変更することで、会話データをより適切にモデル化する。さらに、XLNetにおける従来の自己注意機構を置き換える形で、会話に適応した自己注意機構を導入し、発話者内および発話者間の有用な依存関係を捉える。本研究では、主流のモデルと比較するため、4つのERCベンチマーク上で広範な実験を実施した。実験結果から、提案モデルはすべてのデータセットにおいてベースラインを上回ることが確認された。また、アブレーションスタディや誤差分析を含む追加実験も実施し、DialogXLの重要なモジュールの有効性が裏付けられた。