9日前
TorchicTab:Wikidata と LLM を用いた意味的テーブル注釈
{Anastasia Dimou, Xuemin Duan, Duo Yang, Ioannis Dasoulas}

要約
多数の表形式データが存在し、幅広いアプリケーションで利用されている。しかし、これらのデータの大部分は、ユーザーおよび機械が適切に理解するための必須となる意味情報(セマンティクス)を欠いている。この表データの意味的理解の不足は、データ分析パイプラインにおける活用を阻害している。既存の表データの意味的解釈を可能にする手法は存在するが、それらは特定の注釈タスクや表の種類に特化しており、大規模な知識ベースに依存しているため、実世界の環境での再利用が困難である。したがって、より堅牢なシステムが求められており、異なる表形式に適応しつつ、より正確な注釈を生成できることが必要である。意味ウェブの表データと知識グラフのマッチングに関するチャレンジ(SemTab)は、多様なデータセットおよびタスク上で評価可能な意味的表データ解釈システムのベンチマークを提供する目的で導入された。本論文では、Wikidataなどの外部知識グラフ、または事前に定義された用語で注釈された表データを用いて学習可能な、多様な構造を持つ表に対して注釈を付与できる汎用的な意味的表データ解釈システム「TorchicTab」を提案する。また、SemTabチャレンジのさまざまな注釈タスクに基づいて本システムの性能を評価した。その結果、異なるデータセット上で多様なタスクに対して高精度な注釈を生成できることを示した。