
要約
sequence-to-sequenceモデルは自然言語処理(NLP)の多様なタスクに応用されてきたが、対話状態追跡(dialogue state tracking)に適切に活用する方法については体系的な検討がなされていない。本研究では、事前学習目的および文脈表現の形式という観点からこの問題を検討する。我々は、事前学習目的の選定が状態追跡の品質に顕著な影響を与えることを実証した。特に、マスクされたスパン予測(masked span prediction)が自己回帰的言語モデル(auto-regressive language modeling)よりも優れた効果を示すことを明らかにした。また、テキスト要約向けに設計されたスパン予測に基づく事前学習目的であるPegasusを、状態追跡モデルに適用する可能性を検討した。その結果、一見して関連性の低い要約タスクに対する事前学習が、対話状態追跡において驚くほど良好な性能を発揮することが分かった。さらに、再帰的な状態文脈表現(recurrent state context representation)も一定程度の性能を示すものの、初期の誤りを修正する際に困難を抱える傾向があることを確認した。これらの観察結果は、MultiWOZ 2.1–2.4、WOZ 2.0、DSTC2の各データセットにおいて一貫して得られた。