Accélérez les performances du stockage pour l’IA avec RDMA sur le stockage S3-compatible
Les charges de travail d’intelligence artificielle (IA) actuelles sont extrêmement intensives en données, nécessitant des solutions de stockage plus évolutives et plus abordables que jamais. D’ici 2028, les entreprises devraient générer près de 400 zettaoctets de données par an, dont 90 % sont non structurées — vidéos, audio, images, PDFs, etc. Cette masse croissante, combinée à la nécessité de transférer des données entre infrastructures locales et le cloud, pousse l’industrie de l’IA à explorer de nouvelles solutions de stockage. L’une des avancées clés repose sur l’utilisation du RDMA (Remote Direct Memory Access) pour le stockage compatible S3. Le RDMA permet d’accélérer le protocole S3-API en permettant aux transferts de données d’aller directement entre la mémoire du serveur et celle du réseau, sans passer par le système d’exploitation ni la CPU. Cette approche réduit considérablement la latence et augmente la bande passante. NVIDIA a développé des bibliothèques clientes et serveurs RDMA spécifiquement pour le stockage objet compatible S3, intégrées par des partenaires comme Cloudian, Dell Technologies et HPE dans leurs solutions de stockage haute performance : Cloudian HyperStore, Dell ObjectScale et HPE Alletra Storage MP X10000. Grâce à cette technologie, les charges de travail d’IA bénéficient d’un débit par téraoctet plus élevé, d’un meilleur débit par watt, d’un coût par téraoctet réduit et d’une latence nettement inférieure à celle du TCP, le protocole traditionnel. Les bibliothèques client fonctionnent sur les nœuds d’inférence ou d’entraînement GPU NVIDIA, permettant aux modèles d’IA d’accéder aux données de stockage objet plus rapidement, améliorant ainsi l’utilisation des GPU et la performance globale. L’architecture est conçue pour être ouverte, permettant à d’autres fabricants et utilisateurs de contribuer à l’évolution des bibliothèques clientes ou d’implémenter leurs propres solutions compatibles avec les API RDMA pour S3. NVIDIA collabore avec ses partenaires pour standardiser cette technologie, assurant une interopérabilité optimale entre les environnements on-premises et cloud. Cette standardisation, couplée à la compatibilité S3, permet d’exploiter des milliers d’applications et d’outils existants sans refonte. Jon Toor, CMO de Cloudian, souligne que le stockage objet est l’avenir de la gestion de données à grande échelle pour l’IA, et que l’adoption du RDMA pour S3 améliore à la fois la performance et l’efficacité. Rajesh Rajaraman, CTO de Dell Technologies, insiste sur la nécessité d’un stockage performant à l’échelle, notamment pour les « usines d’IA » distribuées. Jim O’Dorisio, de HPE, met en avant l’efficacité du RDMA pour réduire le coût total de possession tout en accélérant le traitement des données non structurées. Les bibliothèques RDMA pour S3 sont actuellement disponibles pour certains partenaires, avec une disponibilité générale prévue via le NVIDIA CUDA Toolkit en janvier. Par ailleurs, NVIDIA lance un nouveau programme de certification de stockage objet, intégré au programme NVIDIA-Certified Storage, pour garantir la conformité et la performance des solutions. Cette initiative marque une avancée majeure vers un stockage objet haut débit, économe en énergie et parfaitement adapté aux exigences croissantes de l’IA.
