14일 전

CSV 파일 다이얼렉트 탐지: 테이블 균일성 측정과 데이터 유형 추론을 통한 방법

{W. García}
초록

CSV 형식이 인간이 읽기 쉬운 간단함을 지닌 방식으로 설계된 점과, 이 형식을 엄격히 정의하는 표준이 부재한 점은 여러 변종 형태가 존재하게 되는 원인이 되었다. 이러한 현상은 데이터 관리 시스템 간, 또는 국가 및 지역 간의 정보 교환 과정에서 데이터 마이닝 및 정제 단계에서 인간의 개입이 필요하게 만들었다. 이에 따라 특정 시스템에서 데이터를 로드할 때 데이터 손실을 방지하기 위해 CSV 파일의 다국어( dialect )를 정확히 식별하려는 다양한 계산 도구가 개발되어 왔다. 그러나 기존 시스템들은 여전히 한계를 가지고 있으며, 개선 및/또는 확장이 필요한 가정을 내포하고 있다. 본 논문에서는 테이블의 균일성( table uniformity )을 기반으로 한 CSV 파일 다국어를 결정하는 방법을 제안한다. 이 방법은 테이블의 일관성과 각 필드에 대한 레코드 분포 측정을 기반으로 한 통계적 접근법이며, 각 필드에서의 데이터 타입 탐지 기능을 포함한다. 제안된 새로운 방법은 벤치마크 프레임워크에서 추출한 147개 샘플 CSV 파일로 구성된 데이터셋에서 100%의 정확도를 달성하였다. 또한, 본 방법은 단지 10개의 레코드만을 읽어도 다국어를 정확히 식별할 수 있을 정도로 높은 정확도를 보이며, 초기 레코드에 필요한 정보가 포함되지 않은 경우에 대해 더 많은 데이터를 필요로 하여 모호성을 제거하는 데에 유리하다.

CSV 파일 다이얼렉트 탐지: 테이블 균일성 측정과 데이터 유형 추론을 통한 방법 | 최신 연구 논문 | HyperAI초신경