Recommandation d'outils : Volants Hautes Performances Conçus Spécifiquement Pour Les GPU

il y a 7 ans

Par Super Neuro

Les GPU et les bases de données ont leurs propres atouts. Les GPU sont efficaces pour traiter des tâches telles que l’apprentissage automatique, tandis que les bases de données sont efficaces pour les calculs avec des exigences spécifiques, telles que les calculs de connexion complexes.

Il existe actuellement certains produits de solutions de base de données qui offrent une accélération GPU, notamment les familiers MapD et Kinetica. Aujourd'hui, nous allons présenter un jeune produit open source, BlazingSQL.

BlazingSQL est un outil de requête de base de données accéléré par GPU basé sur RAPIDS. BlazingSQL étend RAPIDS et permet aux utilisateurs d'exécuter des requêtes SQL directement sur Apache Arrow dans la mémoire GPU.

Outre son adaptabilité aux GPU et sa vitesse, qui sont beaucoup plus rapides que d'autres produits similaires, la plupart des entrepôts de données SQL nécessitent que les entreprises extraient et copient elles-mêmes les données, tandis que BlazingDB peut lire les données directement depuis Apache Parquet, ce qui simplifie l'architecture du canal de données tout en prenant en charge les charges hautes performances.

Plus important encore, BlazingSQL a également reçu des investissements de NVIDIA et de Samsung, et entretient une très bonne relation de coopération avec NVIDIA.

Évaluation des performances

Pour comparer les performances des outils, vous devez d’abord effectuer un test d’évaluation comparative et exécuter une charge de travail analytique de bout en bout.

* Les étapes sont : Data Lake > FTL Feature Engineering > XGBoost Training

* Nous avons construit deux clusters à prix comparables sur GCP, en utilisant respectivement Apache Spark et BlazingSQL.

* Le résultat final est que BlazingSQL fonctionne 5 fois plus rapidement qu'Apache Spark.

(La nouvelle version s'exécute 20 fois plus rapidement qu'Apache Spark sur la même charge de travail.)

Un bon cheval mérite une bonne selle

La raison pour laquelle Blazing SQL peut obtenir des résultats d'exécution efficaces est qu'il utilise luxueusement le GPU T4 de GCP, qui est un nouveau GPU d'entrée de gamme bon marché mais doté de performances élevées.

L'utilisation des nouveaux GPU T4 a réduit nos coûts de moitié, réduisant le cluster Apache Spark à 4 nœuds CPU pour maintenir des prix cohérents.

Mais le résultat final est que même si la mémoire du GPU est réduite de moitié, la charge de travail entière sera nettement plus rapide.

Les ingénieurs de Blazing SQL ont également développé un noyau d'exécution GPU conçu spécifiquement pour les GPU DataFrames (GDF) appelé « SIMD Expression Interpreter ».

Il faudrait beaucoup de temps pour décrire l'interpréteur d'expression SIMD, je vais donc ici simplement partager quelques détails sur son fonctionnement et pourquoi de telles améliorations de performances se produisent.

L'amélioration des performances de l'interpréteur d'expressions SIMD est principalement obtenue grâce aux étapes clés suivantes :

1. La machine prend en charge plusieurs entrées. Ces entrées peuvent être des colonnes GDF, des littéraux, des fonctions.

2. Lors du chargement de ces entrées, l'interpréteur d'expression SIMD optimise l'allocation des registres sur le GPU, ce qui améliore l'utilisation du GPU et, en fin de compte, les performances.

3. De plus, la machine virtuelle traite ces entrées et génère plusieurs sorties simultanément. Par exemple, considérons la requête SQL suivante : SELECT colA + colB * 10, sin(colA) — cos(colD) FROM tableA

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

HyperAI

Recommandation d'outils : Volants Hautes Performances Conçus Spécifiquement Pour Les GPU

il y a 7 ans

Titres

Liste Recommandée

Par Super Neuro

Plus important encore, BlazingSQL a également reçu des investissements de NVIDIA et de Samsung, et entretient une très bonne relation de coopération avec NVIDIA.

Évaluation des performances

Pour comparer les performances des outils, vous devez d’abord effectuer un test d’évaluation comparative et exécuter une charge de travail analytique de bout en bout.

* Les étapes sont : Data Lake > FTL Feature Engineering > XGBoost Training

* Nous avons construit deux clusters à prix comparables sur GCP, en utilisant respectivement Apache Spark et BlazingSQL.

* Le résultat final est que BlazingSQL fonctionne 5 fois plus rapidement qu'Apache Spark.

(La nouvelle version s'exécute 20 fois plus rapidement qu'Apache Spark sur la même charge de travail.)

Un bon cheval mérite une bonne selle

L'utilisation des nouveaux GPU T4 a réduit nos coûts de moitié, réduisant le cluster Apache Spark à 4 nœuds CPU pour maintenir des prix cohérents.

Mais le résultat final est que même si la mémoire du GPU est réduite de moitié, la charge de travail entière sera nettement plus rapide.

Les ingénieurs de Blazing SQL ont également développé un noyau d'exécution GPU conçu spécifiquement pour les GPU DataFrames (GDF) appelé « SIMD Expression Interpreter ».

L'amélioration des performances de l'interpréteur d'expressions SIMD est principalement obtenue grâce aux étapes clés suivantes :

1. La machine prend en charge plusieurs entrées. Ces entrées peuvent être des colonnes GDF, des littéraux, des fonctions.

2. Lors du chargement de ces entrées, l'interpréteur d'expression SIMD optimise l'allocation des registres sur le GPU, ce qui améliore l'utilisation du GPU et, en fin de compte, les performances.

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Command Palette

Recommandation d'outils : Volants Hautes Performances Conçus Spécifiquement Pour Les GPU

Évaluation des performances

Un bon cheval mérite une bonne selle

Command Palette

Recommandation d'outils : Volants Hautes Performances Conçus Spécifiquement Pour Les GPU

Évaluation des performances

Un bon cheval mérite une bonne selle

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Command Palette

Recommandation d'outils : Volants Hautes Performances Conçus Spécifiquement Pour Les GPU

Évaluation des performances

Un bon cheval mérite une bonne selle

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Associé Actualités

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Grâce À Une Accélération De 252 Fois, Stanford, UCLA Et d'autres Institutions Ont Utilisé LSTM Pour Faire Entrer Les Simulations Optiques Non Linéaires Du Second Ordre Dans l'ère De La milliseconde.

Résumé Du Tutoriel | Les Petits Modèles Open Source Atteignent Une Intelligence Globale Comparable À GPT-5 ; Évaluation Unique Des Modèles Populaires Tels Que Qwen 3.5/Gemma 4.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.