HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習モデルにおける構成的汎化を中間表現を用いて解明する

Jonathan Herzig Peter Shaw Ming-Wei Chang Kelvin Guu Panupong Pasupat Yuan Zhang

概要

シーケンス・トゥ・シーケンス(seq2seq)モデルは意味解析において広く用いられているが、分布外の構成的一般化(out-of-distribution compositional generalization)において困難を抱えていることが明らかになっている。この問題に対処するため、専用のモデルアーキテクチャやseq2seqモデルの事前学習(pre-training)が提案されてきた。しかし、前者はモデルの汎用性を損なう傾向があり、後者は限定的な成功にとどまっている。本論文では、モデルアーキテクチャを一切変更せずに、事前学習済みseq2seqモデルにおける中間表現(intermediate representations)が構成的一般化に与える影響を検討し、効果的な表現設計に向けた重要な要素を同定する。自然言語を直接実行可能形式にマッピングするのではなく、自然言語との構造的対応が強い可逆的または損失のある中間表現を経由するアプローチを採用する。本研究で提案する中間表現と事前学習モデルの組み合わせは、驚くほど有効であり、CFQデータセットにおいては新記録となる+14.8の精度向上を達成し、3つのテキストto-SQLデータセットのテンプレート分割(template-splits)においても+15.0~+19.4の精度向上を実現した。本研究は、中間表現が事前学習seq2seqモデルの構成的一般化能力を向上させる上で、重要なかつしばしば見過ごされがちな自由度を提供していることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
事前学習モデルにおける構成的汎化を中間表現を用いて解明する | 記事 | HyperAI超神経