HyperAI
Back to Headlines

Parquet-CDC reduziert Datenübertragung und Speicher auf Hugging Face Hub.

vor 8 Tagen

Apache Parquet ist ein weit verbreiteter Spaltenformat-Standard in der Datenverarbeitung. Hugging Face Hub, eine Plattform für maschinelles Lernen, hat nun eine neue Speicherarchitektur namens Xet eingeführt, die Content-Defined Chunking (CDC) nutzt, um die Deduplizierung von Daten zu optimieren. CDC ist eine Funktion in PyArrow und Pandas, die es ermöglicht, Parquet-Dateien effizienter zu speichern und zu übertragen, indem nur die veränderten Datenabschnitte hochgeladen oder heruntergeladen werden. Dies reduziert die Speicherkosten und beschleunigt die Datenübertragung. In einem Beispiel wurde die OpenOrca-Datensatz-Datei heruntergeladen und verarbeitet, um die Effekte von CDC zu demonstrieren. Beim erneuten Hochladen einer identischen Datei wurde kein neuer Datenübertragungsvorgang durchgeführt, da Xet die Datei bereits kannte. Änderungen wie das Hinzufügen oder Entfernen von Spalten führten zu einer geringeren Datenmenge, die übertragen werden musste, da die unveränderten Daten bereits im Speicher vorhanden waren. Änderungen an Spaltentypen oder das Anhängen von Zeilen erzeugten ebenfalls nur geringe Übertragungsvolumina, da die Änderungen lokalisiert waren. Bei Einfügungen oder Löschungen von Zeilen war die Deduplizierung jedoch weniger effizient, da sich dadurch die Datenblöcke veränderten. Durch die Nutzung von CDC bei der Schreibweise der Parquet-Datei konnten diese Probleme gelöst werden, da die Datenblöcke basierend auf ihrem Inhalt chunked wurden, was zu einer besseren Deduplizierung führte. Änderungen an der Zeilengruppengröße oder das Splitten der Datei in verschiedene Teile beeinflussten die Deduplizierung nicht signifikant, da CDC auch bei unterschiedlichen Dateiaufteilungen effizient arbeitete. Die Verwendung von Parquet CDC mit Pandas wurde ebenfalls gezeigt, wobei die Effizienz der Deduplizierung von der Selektivität der Filter abhing. Insgesamt reduziert die Kombination aus Xet und Parquet CDC die Datenübertragungszeiten und -kosten erheblich und bietet eine skalierbare Lösung für das Arbeiten mit großen Datensätzen. Industrieinsider betonen, dass die Einführung von Xet und CDC eine bedeutende Verbesserung für die Speicher- und Übertragungsprozesse auf Hugging Face Hub darstellt. Das Unternehmen hat sich auf die Entwicklung von Lösungen für maschinelles Lernen und Datenverarbeitung spezialisiert. Die Nutzung dieser Technologie kann Unternehmen dabei helfen, ihre Datentransfers zu optimieren und Kosten zu sparen.

Related Links