Erkennung von CSV-Dateidialekten durch Messung der Tabellenuniformität und Datentypinferenz
Die menschenlesbare Einfachheit, mit der das CSV-Format entwickelt wurde, zusammen mit dem Fehlen eines Standards, der dieses Format streng definiert, hat die Entstehung mehrerer Varianten in den Dialekten, in denen diese Dateien geschrieben werden, ermöglicht. Letzteres bedeutet, dass der Austausch von Informationen zwischen Datenmanagementsystemen oder zwischen Ländern und Regionen während des Datenminings und der Datenbereinigung menschliche Intervention erfordert. Dies hat zur Entwicklung verschiedener rechnergestützter Werkzeuge geführt, die darauf abzielen, die Dialekte von CSV-Dateien präzise zu bestimmen, um Datenverluste beim Laden der Daten durch ein bestimmtes System zu vermeiden. Derzeitige Systeme weisen jedoch Einschränkungen auf und basieren auf Annahmen, die verbessert und/oder erweitert werden müssen. In diesem Artikel wird eine Methode zur Bestimmung von CSV-Dateidialekten vorgestellt, die auf der Tabellenuniformität basiert – ein statistischer Ansatz, der auf der Tabellenkonsistenz und der Messung der Datensprödung über die einzelnen Felder sowie der Erkennung der Datentypen pro Feld fußt. Die neue Methode erreicht eine Genauigkeit von 100 % auf einem Datensatz mit 147 zufällig ausgewählten CSV-Dateien aus einem Benchmark-Framework. Darüber hinaus ist die vorgeschlagene Methode präzise genug, um Dialekte bereits anhand der Lektüre von nur zehn Datensätzen zu bestimmen; zur Klärung von Fällen, in denen die ersten Datensätze nicht ausreichend Informationen enthalten, um eine eindeutige Dialektzuordnung vorzunehmen, werden jedoch zusätzliche Daten benötigt.