17日前

事前学習モデルにおける構成的汎化を中間表現を用いて解明する

Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang

要約

シーケンス・トゥ・シーケンス（seq2seq）モデルは意味解析において広く用いられているが、分布外の構成的一般化（out-of-distribution compositional generalization）において困難を抱えていることが明らかになっている。この問題に対処するため、専用のモデルアーキテクチャやseq2seqモデルの事前学習（pre-training）が提案されてきた。しかし、前者はモデルの汎用性を損なう傾向があり、後者は限定的な成功にとどまっている。本論文では、モデルアーキテクチャを一切変更せずに、事前学習済みseq2seqモデルにおける中間表現（intermediate representations）が構成的一般化に与える影響を検討し、効果的な表現設計に向けた重要な要素を同定する。自然言語を直接実行可能形式にマッピングするのではなく、自然言語との構造的対応が強い可逆的または損失のある中間表現を経由するアプローチを採用する。本研究で提案する中間表現と事前学習モデルの組み合わせは、驚くほど有効であり、CFQデータセットにおいては新記録となる+14.8の精度向上を達成し、3つのテキストto-SQLデータセットのテンプレート分割（template-splits）においても+15.0～+19.4の精度向上を実現した。本研究は、中間表現が事前学習seq2seqモデルの構成的一般化能力を向上させる上で、重要なかつしばしば見過ごされがちな自由度を提供していることを示している。