2ヶ月前
佐藤:表における文脈に基づく意味的タイプ検出
Dan Zhang; Yoshihiko Suhara; Jinfeng Li; Madelon Hulsebos; Çağatay Demiralp; Wang-Chiew Tan

要約
関係テーブルのデータ列の意味型を検出することは、データクリーニング、スキーママッチング、データ発見、意味検索などのさまざまなデータ準備および情報検索タスクにおいて重要です。しかし、既存の検出手法は汚れたデータに対して性能が低い、サポートする意味型が限られている、列のテーブルコンテキストを組み込むことができない、または訓練データに大規模なサンプルサイズが必要であるなど、問題点があります。本研究では、Satoというハイブリッド機械学習モデルを提案します。このモデルはテーブルコンテキストと列値からの信号を活用して、テーブル内の列の意味型を自動的に検出します。Satoは大規模なテーブルコーパスで訓練された深層学習モデルとトピックモデリングおよび構造予測を組み合わせることで、それぞれ0.925と0.735のサポート加重F1スコアとマクロ平均F1スコアを達成し、現行の最先端技術を大幅に上回る性能を示しています。私たちはSatoの全体的な性能とタイプごとの性能を詳細に分析し、個々のモデリングコンポーネントや特徴量カテゴリーがその性能にどのように貢献しているかについて議論します。