11日前

TaBERT：テキストおよびテーブルデータの統合的理解のための事前学習

Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel

要約

近年、テキストベースの自然言語（NL）理解タスク向けに事前学習された言語モデル（LM）の発展が著しく進展している。このようなモデルは通常、自由形式の自然言語テキスト上で学習されるため、例えばデータベーステーブルなどの構造化データ上で意味解析（semantic parsing）を行うようなタスクには適していない可能性がある。これは、自由形式の自然言語質問と構造化された表形式データの両方に対して推論を行う必要があるためである。本論文では、自然言語文と（準）構造化テーブルの両方の表現を統合的に学習する事前学習言語モデル「TaBERT」を提案する。TaBERTは、2,600万件のテーブルおよびそれらの英語文脈からなる大規模コーパス上で学習されている。実験の結果、TaBERTを特徴表現層として用いたニューラル意味解析モデルは、弱教師あり意味解析の難易度の高いベンチマーク「WikiTableQuestions」において、新たな最良成績を達成した。また、text-to-SQLデータセット「Spider」においても、競争力のある性能を示した。本モデルの実装コードは、http://fburl.com/TaBERT にて公開される予定である。