Command Palette
Search for a command to run...
Wiki
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
Une machine de Boltzmann est un type de réseau neuronal aléatoire et de réseau neuronal récurrent inventé par Geoffrey Hinton et Terry Sejnowski en 1985. Une machine de Boltzmann peut être considérée comme un processus aléatoire qui génère le […]
Définition : Une méthode de bissection est un algorithme dont l'entrée est une liste ordonnée d'éléments. Si l'élément recherché est contenu dans la liste, la recherche binaire renvoie sa position ; sinon il renvoie null. Idée de base : cette méthode convient lorsque la quantité de données est importante. Lors de l'utilisation de la recherche binaire, les données doivent être triées. Supposons que les données soient classées par ordre croissant […]
Définition Le test binomial compare les fréquences observées des deux catégories d'une variable dichotomique avec les fréquences attendues sous une distribution binomiale avec un paramètre de probabilité spécifié. Par défaut, le paramètre de probabilité est de 0,5 pour les deux groupes. Exemple : Une pièce est lancée et la probabilité que ce soit face est de 1/2. Dans cette hypothèse, une pièce est lancée 40 fois […]
Indique qu'il n'y a que deux catégories dans la tâche de classification, par exemple, nous voulons identifier si une image est un chat ou non. Autrement dit, entraînez un classificateur, entrez une image, représentée par le vecteur de caractéristiques x, et indiquez s'il s'agit d'un chat, représenté par y = 0 ou 1 ; La classification à deux classes suppose que chaque échantillon est défini avec une et une seule étiquette 0 […]
Définition : Les réseaux neuronaux profonds ont démontré des résultats supérieurs dans de nombreux domaines tels que la reconnaissance vocale, le traitement d’images et le traitement du langage naturel. LSTM, en tant que variante de RNN, peut apprendre les dépendances à long terme dans les données par rapport à RNN. En 2005, Graves a proposé de combiner LSTM avec […]
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.
La fonction de perte exponentielle est une fonction de perte couramment utilisée dans l'algorithme AdaBoost. Son expression fonctionnelle est sous forme exponentielle, comme le montre le diagramme suivant. Erreur de perte courante Perte exponentielle Perte exponentielle : principalement utilisée dans l'algorithme d'apprentissage d'ensemble Adaboost ; Perte de charnière H […]
Dans le domaine de l'apprentissage automatique, la vérité fait référence à la valeur de réglage précise de l'ensemble d'entraînement pour le résultat de classification dans l'apprentissage supervisé, qui est généralement utilisé pour l'estimation des erreurs et l'évaluation des effets. Dans l'apprentissage supervisé, les données étiquetées apparaissent généralement sous la forme (x, t), où x représente les données d'entrée et t représente l'étiquette. L'étiquette correcte est Grou […]
La décomposition erreur-divergence fait référence au processus de décomposition de l'erreur de généralisation intégrée, qui peut être exprimée comme suit : où le côté gauche E représente l'erreur de généralisation intégrée, et le côté droit $latex {\over […]
MCMC est un algorithme d'échantillonnage à partir de distributions aléatoires basées sur des chaînes de Markov, qui approxime la distribution postérieure du paramètre d'intérêt en échantillonnant aléatoirement dans l'espace de probabilité. La théorie de base du MCMC est le processus de Markov. Dans les algorithmes connexes, afin d'échantillonner sur une distribution spécifiée, nous pouvons simuler à partir de n'importe quel état selon le processus de Markov.
L'algorithme évolutionnaire est une méthode générale de résolution de problèmes qui s'appuie sur la sélection naturelle et les mécanismes génétiques naturels du monde biologique. Méthode de base : Utiliser une technologie de codage simple pour représenter diverses structures complexes, utiliser des opérations génétiques simples et la sélection naturelle de survie du plus apte pour guider l'apprentissage et déterminer la direction de la recherche ; Utilisez la population pour organiser la recherche, de sorte que […]
Une machine de Boltzmann est un type de réseau neuronal aléatoire et de réseau neuronal récurrent inventé par Geoffrey Hinton et Terry Sejnowski en 1985. Une machine de Boltzmann peut être considérée comme un processus aléatoire qui génère le […]
Définition : Une méthode de bissection est un algorithme dont l'entrée est une liste ordonnée d'éléments. Si l'élément recherché est contenu dans la liste, la recherche binaire renvoie sa position ; sinon il renvoie null. Idée de base : cette méthode convient lorsque la quantité de données est importante. Lors de l'utilisation de la recherche binaire, les données doivent être triées. Supposons que les données soient classées par ordre croissant […]
Définition Le test binomial compare les fréquences observées des deux catégories d'une variable dichotomique avec les fréquences attendues sous une distribution binomiale avec un paramètre de probabilité spécifié. Par défaut, le paramètre de probabilité est de 0,5 pour les deux groupes. Exemple : Une pièce est lancée et la probabilité que ce soit face est de 1/2. Dans cette hypothèse, une pièce est lancée 40 fois […]
Indique qu'il n'y a que deux catégories dans la tâche de classification, par exemple, nous voulons identifier si une image est un chat ou non. Autrement dit, entraînez un classificateur, entrez une image, représentée par le vecteur de caractéristiques x, et indiquez s'il s'agit d'un chat, représenté par y = 0 ou 1 ; La classification à deux classes suppose que chaque échantillon est défini avec une et une seule étiquette 0 […]
Définition : Les réseaux neuronaux profonds ont démontré des résultats supérieurs dans de nombreux domaines tels que la reconnaissance vocale, le traitement d’images et le traitement du langage naturel. LSTM, en tant que variante de RNN, peut apprendre les dépendances à long terme dans les données par rapport à RNN. En 2005, Graves a proposé de combiner LSTM avec […]
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.
La fonction de perte exponentielle est une fonction de perte couramment utilisée dans l'algorithme AdaBoost. Son expression fonctionnelle est sous forme exponentielle, comme le montre le diagramme suivant. Erreur de perte courante Perte exponentielle Perte exponentielle : principalement utilisée dans l'algorithme d'apprentissage d'ensemble Adaboost ; Perte de charnière H […]
Dans le domaine de l'apprentissage automatique, la vérité fait référence à la valeur de réglage précise de l'ensemble d'entraînement pour le résultat de classification dans l'apprentissage supervisé, qui est généralement utilisé pour l'estimation des erreurs et l'évaluation des effets. Dans l'apprentissage supervisé, les données étiquetées apparaissent généralement sous la forme (x, t), où x représente les données d'entrée et t représente l'étiquette. L'étiquette correcte est Grou […]
La décomposition erreur-divergence fait référence au processus de décomposition de l'erreur de généralisation intégrée, qui peut être exprimée comme suit : où le côté gauche E représente l'erreur de généralisation intégrée, et le côté droit $latex {\over […]
MCMC est un algorithme d'échantillonnage à partir de distributions aléatoires basées sur des chaînes de Markov, qui approxime la distribution postérieure du paramètre d'intérêt en échantillonnant aléatoirement dans l'espace de probabilité. La théorie de base du MCMC est le processus de Markov. Dans les algorithmes connexes, afin d'échantillonner sur une distribution spécifiée, nous pouvons simuler à partir de n'importe quel état selon le processus de Markov.
L'algorithme évolutionnaire est une méthode générale de résolution de problèmes qui s'appuie sur la sélection naturelle et les mécanismes génétiques naturels du monde biologique. Méthode de base : Utiliser une technologie de codage simple pour représenter diverses structures complexes, utiliser des opérations génétiques simples et la sélection naturelle de survie du plus apte pour guider l'apprentissage et déterminer la direction de la recherche ; Utilisez la population pour organiser la recherche, de sorte que […]