2ヶ月前
事前学習済み言語モデルを使用した列の注釈付け
Yoshihiko Suhara; Jinfeng Li; Yuliang Li; Dan Zhang; Çağatay Demiralp; Chen Chen; Wang-Chiew Tan

要約
テーブルのメタ情報(列ヘッダーや列間の関係など)を推論することは、多くのテーブルがこの情報を欠いていることから、データ管理における活発な研究課題となっています。本論文では、テーブル自体の情報のみを使用してテーブルの列をアノテーションする問題(つまり、列タイプと列間の関係を予測する問題)について考察します。私たちは、事前学習済み言語モデルに基づいたマルチタスク学習フレームワーク(Doduoと呼ばれる)を開発しました。このフレームワークは、全体のテーブルを入力として受け取り、単一のモデルで列タイプや列間の関係を予測します。実験結果は、Doduoが列タイプ予測および列関係予測タスクにおいて2つのベンチマークで新しい最先端性能を確立し、それぞれ最大4.0%および11.9%の改善を達成したことを示しています。また、Doduoは各列あたりわずか8トークンという最小限のトークン数で既存の最先端性能を超えることができることも報告しています。私たちはツールボックス(https://github.com/megagonlabs/doduo)を公開し、ケーススタディを通じてDoduoが実際のデータサイエンス問題に対して有効であることを確認しました。