Command Palette

Search for a command to run...

4ヶ月前

CSVファイルのダイアレクト検出におけるテーブル均一性測定とデータ型推論

{W. García}

要約

CSV形式が設計された際の読みやすさと、このフォーマットを厳密に定義する標準が存在しないことにより、実際のファイル作成においてさまざまな方言(ディアレクト)が広がりをみせている。この状況は、データ管理システム間、あるいは国や地域間での情報交換において、データマイニングおよびクリーニングプロセスに人為的な介入を要する結果をもたらしている。こうした課題に対応して、特定のシステムによるデータロード時にデータ損失を回避するため、CSVファイルの方言を正確に特定することを目的とした複数の計算ツールが開発されてきた。しかし、現行の手法には限界があり、改善・拡張が必要な前提条件や仮定が含まれている。本論文では、テーブルの均一性に基づく統計的手法を用いたCSVファイルの方言判別方法を提案する。この手法は、テーブルの整合性とレコードの分散度を測定し、各フィールドにおけるデータ型の検出を組み合わせたアプローチである。実験では、ベンチマークフレームワークから抽出された147件のCSVファイルを対象としたデータセットにおいて、100%の正確性を達成した。さらに、本手法はわずか10件のレコードを読み込むことで方言を正確に判別可能であり、初期のレコードに必要な情報が不足するケースについては、より多くのデータを用いて曖昧性を解消することができる。

ベンチマーク

ベンチマーク方法論指標
csv-dialect-detection-on-tudF1 Score
1:1 Accuracy: 0.9260

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CSVファイルのダイアレクト検出におけるテーブル均一性測定とデータ型推論 | 論文 | HyperAI超神経