Command Palette
Search for a command to run...
Wiki
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
La méthode de vote à la majorité absolue est une méthode de vote qui nécessite plus de la moitié des votes valides pour être reconnue. Lorsque plusieurs classificateurs prédisent une certaine catégorie, seule la partie supérieure à la moitié du total des résultats sera prédite. Voici la formule de représentation : $latex {H{ \left( {x} \right) }\text{ […]
L'apprentissage multiple est une méthode de base en reconnaissance de formes, qui recherche l'essence des choses à partir des phénomènes observés et trouve les lois internes qui génèrent les données. L'apprentissage des variétés peut être divisé en deux types : l'algorithme d'apprentissage des variétés linéaires et l'algorithme d'apprentissage des variétés non linéaires. L'algorithme d'apprentissage de variétés non linéaires comprend le mappage isométrique Isomap, le mappage propre de Laplace L […]
L'erreur quadratique moyenne est la valeur attendue qui reflète le degré de différence entre la valeur estimée et la valeur réelle. Il est souvent utilisé pour évaluer le degré de changement des données et prédire l’exactitude des données. Supposons qu'il existe un paramètre , dont la fonction d'estimation est
, alors $latex {MSE [...]
La traduction automatique est l'utilisation d'ordinateurs pour convertir entre différentes langues, traduisant généralement la langue source vers la langue cible. Processus de traduction Du point de vue de la traduction humaine à la traduction automatique, le processus de traduction peut être décomposé comme suit : Déchiffrer le sens du texte source et recompiler le sens analysé dans la langue cible. Méthodes de traduction Étapes générales de la traduction automatique […]
L'hypothèse de variété est une hypothèse courante dans l'apprentissage semi-supervisé, et une autre est l'hypothèse de clustering. L'hypothèse multiple stipule que les exemples avec des propriétés similaires se trouvent généralement dans de petits voisinages locaux et ont donc des étiquettes similaires, ce qui reflète la régularité locale de la fonction de décision. Contrairement à l'hypothèse de clustering qui se concentre sur les caractéristiques globales, l'hypothèse de variété se concentre davantage sur les caractéristiques [...]
L'estimation du maximum de vraisemblance est une méthode d'estimation principalement utilisée pour déterminer les paramètres du modèle en trouvant les données possibles qui maximisent la valeur d'observation du modèle et en les utilisant comme choix final. Dans l’estimation du maximum de vraisemblance, l’échantillonnage satisfait l’hypothèse d’une distribution indépendante et identique. Son objectif est d’utiliser les résultats d’échantillons connus pour déduire la valeur du paramètre qui a la plus grande probabilité de conduire à des résultats connexes.
L'apprentissage paresseux est une méthode de traitement des ensembles de formation qui s'entraîne dès que les échantillons de test sont reçus, contrairement à l'apprentissage impatient, qui commence à apprendre les échantillons pendant la phase de formation. Si les données de la tâche changent fréquemment, l’apprentissage paresseux peut être utilisé. Aucune formation n'est effectuée au préalable, la demande de prédiction est reçue, puis les données actuelles sont utilisées pour les probabilités.
L’apprentissage par analogie est une méthode de pensée cognitive et d’inférence. Il compare deux types de choses ou de situations pour découvrir leurs similitudes au niveau de l’objet et utilise cela comme base pour comparer la relation entre les choses et les situations. En les disposant/échangeant de manière appropriée pour qu'ils correspondent à une autre chose, la solution correspondante est obtenue. Il existe plusieurs méthodes de classification pour l’apprentissage par analogie […]
La méthode Holdout est une méthode d’évaluation de modèle qui divise l’ensemble de données D en deux ensembles mutuellement exclusifs. En supposant qu'un ensemble est l'ensemble d'apprentissage S et l'autre l'ensemble de test T, alors : D = S ∪ T , S ∩ T = ∅ La division de l'ensemble d'apprentissage/de test doit maintenir la distribution des données cohérente autant que possible. Pour éviter […]
L'élagage est une méthode permettant d'empêcher la ramification d'un arbre de décision. C'est un moyen de résoudre le problème du surajustement dans les arbres de décision.
Le test d'hypothèse est une méthode de test d'hypothèses statistiques, principalement utilisée en statistique inférentielle, où « l'hypothèse statistique » est une hypothèse scientifique testée, principalement en observant le modèle de variables aléatoires. En partant du principe que les paramètres inconnus peuvent être estimés, des inférences appropriées peuvent être tirées des valeurs des paramètres inconnus sur la base des résultats. En statistique, une hypothèse sur un paramètre est une hypothèse sur un ou plusieurs […]
L'apprentissage d'ensemble est l'idée de combiner plusieurs modèles en un modèle de haute précision. Il est principalement utilisé dans le domaine de l'apprentissage automatique. Il ne s’agit pas d’un algorithme d’apprentissage automatique unique, mais plutôt d’une tâche d’apprentissage complétée en créant et en combinant plusieurs apprenants. L'apprentissage d'ensemble peut être utilisé pour les problèmes de classification, les problèmes de régression, la sélection de caractéristiques, la détection de valeurs aberrantes, etc. On peut dire que tout apprentissage automatique […]
La méthode de codage de sortie à correction d'erreurs ECOC peut convertir des problèmes multi-classes en plusieurs problèmes à deux classes, et le code de sortie à correction d'erreurs lui-même possède des capacités de correction d'erreurs, ce qui peut améliorer la précision de prédiction des algorithmes d'apprentissage supervisé. Le codage de catégorie de sortie peut être divisé en deux catégories, c'est-à-dire que chaque catégorie correspond à une chaîne de bits binaires de longueur n, formant un total de m mots de code, qui […]
Le risque empirique démontre la capacité du modèle à prédire les échantillons d’entraînement. On l'obtient en calculant la fonction de perte une fois pour tous les échantillons d'entraînement, puis en accumulant la moyenne. La fonction de perte est la base du risque attendu, du risque empirique et du risque structurel. La fonction de perte concerne un seul échantillon spécifique et représente l'écart entre la valeur prédite du modèle et la valeur réelle. […]
Le clustering K-means est une méthode de quantification vectorielle qui a été utilisée dans le traitement du signal à ses débuts. Il est actuellement principalement utilisé comme méthode d’analyse de clustering dans le domaine de l’exploration de données. Le but du clustering k-means est de diviser n points en k clusters de sorte que chaque point appartienne au cluster correspondant à la moyenne la plus proche, et d'utiliser cela comme critère de clustering. Ce genre de problème [...]
La théorie des marges est un concept des machines à vecteurs de support, où la marge fait référence à la distance minimale entre deux types d'échantillons divisée par un hyperplan. La théorie des marges peut être utilisée pour expliquer que lorsque l’erreur d’entraînement de l’algorithme AdaBoost est de 0, un entraînement continu peut encore améliorer les performances de généralisation du modèle. Soit x et y représentent l’entrée et […]
Le perceptron est un modèle de classification linéaire binaire qui peut être considéré comme la forme la plus simple d'un réseau neuronal à propagation directe, inventé par Frank Rosenblatt en 1957. Son entrée est le vecteur de caractéristiques de l'instance et sa sortie est la catégorie de l'instance.
La normalisation consiste à mapper les données sur une plage spécifiée pour supprimer les dimensions et les unités dimensionnelles des données de différentes dimensions afin d'améliorer la comparabilité entre les différents indicateurs de données.
La méthode du gradient proximal (PGD) est une méthode spéciale de descente de gradient, qui est principalement utilisée pour résoudre des problèmes d'optimisation avec des fonctions objectives non différentiables.
La post-élagage fait référence à l’opération d’élagage effectuée après la génération de l’arbre de décision.
Un modèle graphique probabiliste est un modèle probabiliste qui utilise une structure graphique pour exprimer la relation entre les variables.
La régression est un algorithme d'apprentissage supervisé permettant de prédire et de modéliser des variables aléatoires numériques continues.
L'apprentissage des règles consiste à apprendre un ensemble de règles SI-ALORS constituées de propositions atomiques à partir de données d'entraînement. Il s’agit d’un type d’apprentissage non supervisé et est souvent classé comme un type de classification.
Le nœud racine est le premier nœud d’une structure de données arborescente. Un nœud normal peut avoir un nœud parent et des nœuds enfants, mais comme la note racine est le premier nœud, il n'a que des nœuds enfants.
La méthode de vote à la majorité absolue est une méthode de vote qui nécessite plus de la moitié des votes valides pour être reconnue. Lorsque plusieurs classificateurs prédisent une certaine catégorie, seule la partie supérieure à la moitié du total des résultats sera prédite. Voici la formule de représentation : $latex {H{ \left( {x} \right) }\text{ […]
L'apprentissage multiple est une méthode de base en reconnaissance de formes, qui recherche l'essence des choses à partir des phénomènes observés et trouve les lois internes qui génèrent les données. L'apprentissage des variétés peut être divisé en deux types : l'algorithme d'apprentissage des variétés linéaires et l'algorithme d'apprentissage des variétés non linéaires. L'algorithme d'apprentissage de variétés non linéaires comprend le mappage isométrique Isomap, le mappage propre de Laplace L […]
L'erreur quadratique moyenne est la valeur attendue qui reflète le degré de différence entre la valeur estimée et la valeur réelle. Il est souvent utilisé pour évaluer le degré de changement des données et prédire l’exactitude des données. Supposons qu'il existe un paramètre , dont la fonction d'estimation est
, alors $latex {MSE [...]
La traduction automatique est l'utilisation d'ordinateurs pour convertir entre différentes langues, traduisant généralement la langue source vers la langue cible. Processus de traduction Du point de vue de la traduction humaine à la traduction automatique, le processus de traduction peut être décomposé comme suit : Déchiffrer le sens du texte source et recompiler le sens analysé dans la langue cible. Méthodes de traduction Étapes générales de la traduction automatique […]
L'hypothèse de variété est une hypothèse courante dans l'apprentissage semi-supervisé, et une autre est l'hypothèse de clustering. L'hypothèse multiple stipule que les exemples avec des propriétés similaires se trouvent généralement dans de petits voisinages locaux et ont donc des étiquettes similaires, ce qui reflète la régularité locale de la fonction de décision. Contrairement à l'hypothèse de clustering qui se concentre sur les caractéristiques globales, l'hypothèse de variété se concentre davantage sur les caractéristiques [...]
L'estimation du maximum de vraisemblance est une méthode d'estimation principalement utilisée pour déterminer les paramètres du modèle en trouvant les données possibles qui maximisent la valeur d'observation du modèle et en les utilisant comme choix final. Dans l’estimation du maximum de vraisemblance, l’échantillonnage satisfait l’hypothèse d’une distribution indépendante et identique. Son objectif est d’utiliser les résultats d’échantillons connus pour déduire la valeur du paramètre qui a la plus grande probabilité de conduire à des résultats connexes.
L'apprentissage paresseux est une méthode de traitement des ensembles de formation qui s'entraîne dès que les échantillons de test sont reçus, contrairement à l'apprentissage impatient, qui commence à apprendre les échantillons pendant la phase de formation. Si les données de la tâche changent fréquemment, l’apprentissage paresseux peut être utilisé. Aucune formation n'est effectuée au préalable, la demande de prédiction est reçue, puis les données actuelles sont utilisées pour les probabilités.
L’apprentissage par analogie est une méthode de pensée cognitive et d’inférence. Il compare deux types de choses ou de situations pour découvrir leurs similitudes au niveau de l’objet et utilise cela comme base pour comparer la relation entre les choses et les situations. En les disposant/échangeant de manière appropriée pour qu'ils correspondent à une autre chose, la solution correspondante est obtenue. Il existe plusieurs méthodes de classification pour l’apprentissage par analogie […]
La méthode Holdout est une méthode d’évaluation de modèle qui divise l’ensemble de données D en deux ensembles mutuellement exclusifs. En supposant qu'un ensemble est l'ensemble d'apprentissage S et l'autre l'ensemble de test T, alors : D = S ∪ T , S ∩ T = ∅ La division de l'ensemble d'apprentissage/de test doit maintenir la distribution des données cohérente autant que possible. Pour éviter […]
L'élagage est une méthode permettant d'empêcher la ramification d'un arbre de décision. C'est un moyen de résoudre le problème du surajustement dans les arbres de décision.
Le test d'hypothèse est une méthode de test d'hypothèses statistiques, principalement utilisée en statistique inférentielle, où « l'hypothèse statistique » est une hypothèse scientifique testée, principalement en observant le modèle de variables aléatoires. En partant du principe que les paramètres inconnus peuvent être estimés, des inférences appropriées peuvent être tirées des valeurs des paramètres inconnus sur la base des résultats. En statistique, une hypothèse sur un paramètre est une hypothèse sur un ou plusieurs […]
L'apprentissage d'ensemble est l'idée de combiner plusieurs modèles en un modèle de haute précision. Il est principalement utilisé dans le domaine de l'apprentissage automatique. Il ne s’agit pas d’un algorithme d’apprentissage automatique unique, mais plutôt d’une tâche d’apprentissage complétée en créant et en combinant plusieurs apprenants. L'apprentissage d'ensemble peut être utilisé pour les problèmes de classification, les problèmes de régression, la sélection de caractéristiques, la détection de valeurs aberrantes, etc. On peut dire que tout apprentissage automatique […]
La méthode de codage de sortie à correction d'erreurs ECOC peut convertir des problèmes multi-classes en plusieurs problèmes à deux classes, et le code de sortie à correction d'erreurs lui-même possède des capacités de correction d'erreurs, ce qui peut améliorer la précision de prédiction des algorithmes d'apprentissage supervisé. Le codage de catégorie de sortie peut être divisé en deux catégories, c'est-à-dire que chaque catégorie correspond à une chaîne de bits binaires de longueur n, formant un total de m mots de code, qui […]
Le risque empirique démontre la capacité du modèle à prédire les échantillons d’entraînement. On l'obtient en calculant la fonction de perte une fois pour tous les échantillons d'entraînement, puis en accumulant la moyenne. La fonction de perte est la base du risque attendu, du risque empirique et du risque structurel. La fonction de perte concerne un seul échantillon spécifique et représente l'écart entre la valeur prédite du modèle et la valeur réelle. […]
Le clustering K-means est une méthode de quantification vectorielle qui a été utilisée dans le traitement du signal à ses débuts. Il est actuellement principalement utilisé comme méthode d’analyse de clustering dans le domaine de l’exploration de données. Le but du clustering k-means est de diviser n points en k clusters de sorte que chaque point appartienne au cluster correspondant à la moyenne la plus proche, et d'utiliser cela comme critère de clustering. Ce genre de problème [...]
La théorie des marges est un concept des machines à vecteurs de support, où la marge fait référence à la distance minimale entre deux types d'échantillons divisée par un hyperplan. La théorie des marges peut être utilisée pour expliquer que lorsque l’erreur d’entraînement de l’algorithme AdaBoost est de 0, un entraînement continu peut encore améliorer les performances de généralisation du modèle. Soit x et y représentent l’entrée et […]
Le perceptron est un modèle de classification linéaire binaire qui peut être considéré comme la forme la plus simple d'un réseau neuronal à propagation directe, inventé par Frank Rosenblatt en 1957. Son entrée est le vecteur de caractéristiques de l'instance et sa sortie est la catégorie de l'instance.
La normalisation consiste à mapper les données sur une plage spécifiée pour supprimer les dimensions et les unités dimensionnelles des données de différentes dimensions afin d'améliorer la comparabilité entre les différents indicateurs de données.
La méthode du gradient proximal (PGD) est une méthode spéciale de descente de gradient, qui est principalement utilisée pour résoudre des problèmes d'optimisation avec des fonctions objectives non différentiables.
La post-élagage fait référence à l’opération d’élagage effectuée après la génération de l’arbre de décision.
Un modèle graphique probabiliste est un modèle probabiliste qui utilise une structure graphique pour exprimer la relation entre les variables.
La régression est un algorithme d'apprentissage supervisé permettant de prédire et de modéliser des variables aléatoires numériques continues.
L'apprentissage des règles consiste à apprendre un ensemble de règles SI-ALORS constituées de propositions atomiques à partir de données d'entraînement. Il s’agit d’un type d’apprentissage non supervisé et est souvent classé comme un type de classification.
Le nœud racine est le premier nœud d’une structure de données arborescente. Un nœud normal peut avoir un nœud parent et des nœuds enfants, mais comme la note racine est le premier nœud, il n'a que des nœuds enfants.