Datenvorverarbeitung
Unter Datenvorverarbeitung versteht man die Manipulation, Filterung oder Verbesserung von Daten vor der Analyse und ist normalerweise ein wichtiger Schritt im Data-Mining-Prozess.Das Ziel der Datenvorverarbeitung besteht darin, die Qualität der Daten zu verbessern und sie für bestimmte Data-Mining-Aufgaben besser geeignet zu machen.
Allgemeine Schritte bei der Datenvorverarbeitung
Bei der Datenvorverarbeitung handelt es sich um die Bereinigung und Umwandlung von Rohdaten, um sie für die Analyse geeignet zu machen. Zu den allgemeinen Schritten der Datenvorverarbeitung gehören:
- Datenbereinigung:Dabei geht es darum, Fehler oder Inkonsistenzen in den Daten, wie etwa fehlende Werte, Ausreißer und Duplikate, zu identifizieren und zu korrigieren. Die Datenbereinigung kann mithilfe verschiedener Techniken wie Imputation, Löschung und Transformation erfolgen.
- Datenintegration:Dabei werden Daten aus mehreren Quellen kombiniert, um einen einheitlichen Datensatz zu erstellen. Die Datenintegration kann eine Herausforderung darstellen, da sie den Umgang mit Daten unterschiedlicher Formate, Strukturen und Semantik erfordert. Die Datenintegration kann mithilfe von Technologien wie Datensatzverknüpfung und Datenfusion durchgeführt werden.
Verweise
【1】https://en.wikipedia.org/wiki/Data_Preprocessing
【2】https://www.geeksforgeeks.org/data-preprocessing-in-data-mining/