
要約
テキストデータ向けの大規模事前学習言語モデルは、出力空間が制約されていないため、各デコーディングステップで1万以上のサブワードトークンのいずれかを生成することが可能である。このようなモデルを、SQLのような制約付きの形式言語に微調整した場合、しばしば無効なコードを生成し、実用不可能な結果となる。本研究では、PICARD(コードおよび学習済みモデルは https://github.com/ElementAI/picard にて公開)を提案する。PICARDは、逐次解析(incremental parsing)を用いて言語モデルの自己回帰的デコーダーの出力を制約する手法であり、各デコーディングステップで不適切なトークンを排除することで、有効な出力シーケンスの探索を支援する。困難なSpiderおよびCoSQLテキストからSQLへの翻訳タスクにおいて、PICARDを用いることで、元々有用性に乏しい性能を示していた微調整済みT5モデルを、最先端のソリューションへと変革できることを示した。