
要約
列型注釈は、関係テーブルの各列にその列が含む値の意味型を付与する作業である。データレイクの文脈において、データ検索やデータ統合のための重要な前処理ステップとして、列型注釈が位置づけられている。最先端の列型注釈手法は、テーブルの列を知識グラフのプロパティと照合するか、BERTなどの事前学習済み言語モデルを微調整して列型注釈を行う方法に依存している。本研究では、異なるアプローチを取り、ChatGPTを使用した列型注釈について探求する。我々はゼロショットおよびファーソット設定で異なるプロンプト設計を評価し、モデルに対してタスク定義や詳細な指示を提供することを実験した。さらに、2段階のテーブル注釈パイプラインを実装した。このパイプラインはまずテーブルで説明されるエンティティのクラスを決定し、そのクラスに基づいて全体的な語彙の中から関連する部分集合のみを使用してChatGPTに列注釈を行わせる。これらの指示や2段階パイプラインを使用することで、ChatGPTはゼロショットおよびワンショット設定でF1スコア85%以上を達成した。同様のF1スコアを得るためにはRoBERTaモデルには356例での微調整が必要であることを示す比較結果から、ChatGPTがタスク固有のデモンストレーションなしまたは最小限の場合でも競争力のある結果を提供できることを確認できる。(注意:「データレイク」、「F1スコア」、「ゼロショット」、「ファーソット」、「RoBERTa」などの専門用語は一般的な日本語訳を使用しています。「知識グラフ」や「事前学習済み言語モデル」もよく使用される翻訳です。)