Accélérez vos workloads Apache Spark avec Project Aether : migration automatisée vers les GPU sur Amazon EMR
Les charges de travail Apache Spark basées sur les CPU entraînent des performances lentes, une consommation importante de ressources et des coûts cloud élevés. Pour répondre à ces défis, NVIDIA a lancé Project Aether, un outil conçu pour automatiser la migration à grande échelle de ces charges de travail vers des clusters GPU sur Amazon EMR, en exploitant le RAPIDS Accelerator. Ce projet vise à réduire significativement le temps de migration, les coûts opérationnels et les efforts manuels grâce à une automatisation complète du processus. Project Aether est une suite de microservices intégrés à Amazon EMR, permettant de passer d’un environnement Spark CPU à un environnement GPU accéléré de manière fluide. Il s’appuie sur quatre phases clés : prédiction, optimisation, validation et migration, toutes automatisées via une interface CLI ou une interface utilisateur. La première étape, la prédiction, évalue la faisabilité d’une accélération GPU pour une tâche Spark existante. Elle utilise un modèle XGBoost appelé QualX, analysant les logs d’événements CPU pour estimer le potentiel de gain de performance et la compatibilité avec le GPU. Cette phase génère des recommandations initiales pour la migration. La deuxième phase, l’optimisation, consiste à tester la tâche sur un cluster GPU. Un cluster GPU est créé automatiquement via le service Cluster, puis la tâche est soumise avec des paramètres Spark initiaux. Le service Tune itère sur des soumissions et des profils, en analysant les logs GPU via le Profile pour ajuster dynamiquement les paramètres (comme la taille des partitions ou la mémoire allouée), afin d’optimiser à la fois les performances et les coûts. La troisième phase, la validation, garantit l’intégrité des données. Le service Validate compare les métriques clés (nombre de lignes lues et écrites) entre le résultat du job GPU et celui du job CPU original. Une conformité totale est nécessaire avant toute migration définitive. Enfin, la phase migration produit un rapport détaillé via le service Report, accessible en ligne ou en CLI. Ce rapport inclut les meilleures configurations Spark, les spécifications du cluster GPU recommandées, ainsi que les résultats des tests. Une commande unique permet d’exécuter l’ensemble du processus en une seule opération. Project Aether est particulièrement adapté aux entreprises souhaitant moderniser leurs pipelines big data sans réécrire leurs applications. Il réduit drastiquement le risque d’erreurs humaines et accélère le retour sur investissement des infrastructures GPU. Des experts du secteur soulignent que cette automatisation représente une avancée majeure pour l’adoption du GPU dans les environnements Spark. NVIDIA, en collaboration avec AWS, continue de renforcer l’écosystème RAPIDS, qui combine des bibliothèques open source (comme cuDF, cuML) pour des traitements de données et d’apprentissage automatique ultra-rapides. Pour les organisations intéressées, l’accès à Project Aether est disponible sur demande, permettant de tester la migration à grande échelle de charges Spark existantes vers des infrastructures GPU sur Amazon EMR.
