HyperAI
Back to Headlines

Hugging Face Hub : Parquet et Xet optimisent le transfert de données grâce au Content-Defined Chunking

il y a 8 jours

Le format Apache Parquet est couramment utilisé dans le domaine du traitement des données. Hugging Face, qui héberge près de 21 pétaoctets de données, notamment 4 pétaoctets de fichiers Parquet, a introduit un nouveau système de stockage appelé Xet. Ce système utilise une technique de déduplication par chunk basée sur le contenu, ce qui réduit les coûts de stockage et accélère les transferts de fichiers. Cependant, la structure de Parquet, qui regroupe les données par colonnes, peut rendre cette déduplication moins efficace en cas de modifications mineures. Pour pallier ce problème, la fonction de chunking défini par le contenu (CDC) a été mise en place. Elle permet de structurer les données de manière à minimiser les différences au niveau des pages de données, facilitant ainsi la déduplication. Dans un exemple concret, un tableau PyArrow a été chargé, modifié et envoyé sur Hugging Face Hub. Lorsqu’un fichier est réuplodé exactement, aucune donnée n’est transférée, car Xet reconnaît le contenu déjà existant. Si des colonnes sont ajoutées ou supprimées, seules les parties modifiées sont transférées. De même, lorsqu’on change le type d’une colonne, seuls les nouveaux chunks sont envoyés. Pour les opérations comme l’ajout ou la suppression de lignes, la déduplication est moins efficace, car cela modifie la structure des pages de données. Cependant, l’activation de CDC permet de réduire ces différences, améliorant ainsi la déduplication. Lorsqu’on modifie la taille des groupes de lignes, le CDC maintient une bonne performance de déduplication, même si la structure des fichiers change. Enfin, lorsqu’un dataset est divisé en plusieurs fichiers, le CDC permet de dédupliquer efficacement les données entre ces fichiers, même s’ils sont segmentés différemment. Cette fonctionnalité est également disponible avec Pandas via la méthode to_parquet. En conclusion, le CDC avec Xet offre des gains significatifs en termes de rapidité et d’efficacité de stockage. Il permet de réduire les coûts de transfert et de stockage, tout en facilitant la collaboration entre utilisateurs. Les experts du secteur soulignent que cette approche est particulièrement pertinente pour les workflows de données à grande échelle. Les entreprises comme Hugging Face, qui gèrent des volumes massifs de données, bénéficient de ces avancées pour optimiser leurs infrastructures.

Related Links