要約
CSV形式が設計された際の読みやすさと、このフォーマットを厳密に定義する標準が存在しないことにより、実際のファイル作成においてさまざまな方言(ディアレクト)が広がりをみせている。この状況は、データ管理システム間、あるいは国や地域間での情報交換において、データマイニングおよびクリーニングプロセスに人為的な介入を要する結果をもたらしている。こうした課題に対応して、特定のシステムによるデータロード時にデータ損失を回避するため、CSVファイルの方言を正確に特定することを目的とした複数の計算ツールが開発されてきた。しかし、現行の手法には限界があり、改善・拡張が必要な前提条件や仮定が含まれている。本論文では、テーブルの均一性に基づく統計的手法を用いたCSVファイルの方言判別方法を提案する。この手法は、テーブルの整合性とレコードの分散度を測定し、各フィールドにおけるデータ型の検出を組み合わせたアプローチである。実験では、ベンチマークフレームワークから抽出された147件のCSVファイルを対象としたデータセットにおいて、100%の正確性を達成した。さらに、本手法はわずか10件のレコードを読み込むことで方言を正確に判別可能であり、初期のレコードに必要な情報が不足するケースについては、より多くのデータを用いて曖昧性を解消することができる。