11日前

TaBERT:テキストおよびテーブルデータの統合的理解のための事前学習

Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel
TaBERT:テキストおよびテーブルデータの統合的理解のための事前学習
要約

近年、テキストベースの自然言語(NL)理解タスク向けに事前学習された言語モデル(LM)の発展が著しく進展している。このようなモデルは通常、自由形式の自然言語テキスト上で学習されるため、例えばデータベーステーブルなどの構造化データ上で意味解析(semantic parsing)を行うようなタスクには適していない可能性がある。これは、自由形式の自然言語質問と構造化された表形式データの両方に対して推論を行う必要があるためである。本論文では、自然言語文と(準)構造化テーブルの両方の表現を統合的に学習する事前学習言語モデル「TaBERT」を提案する。TaBERTは、2,600万件のテーブルおよびそれらの英語文脈からなる大規模コーパス上で学習されている。実験の結果、TaBERTを特徴表現層として用いたニューラル意味解析モデルは、弱教師あり意味解析の難易度の高いベンチマーク「WikiTableQuestions」において、新たな最良成績を達成した。また、text-to-SQLデータセット「Spider」においても、競争力のある性能を示した。本モデルの実装コードは、http://fburl.com/TaBERT にて公開される予定である。

TaBERT:テキストおよびテーブルデータの統合的理解のための事前学習 | 最新論文 | HyperAI超神経