Command Palette
Search for a command to run...
Wiki
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
Search for a command to run...
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
Search for a command to run...
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.
La fonction de perte exponentielle est une fonction de perte couramment utilisée dans l'algorithme AdaBoost. Son expression fonctionnelle est sous forme exponentielle, comme le montre le diagramme suivant. Erreur de perte courante Perte exponentielle Perte exponentielle : principalement utilisée dans l'algorithme d'apprentissage d'ensemble Adaboost ; Perte de charnière H […]
Dans le domaine de l'apprentissage automatique, la vérité fait référence à la valeur de réglage précise de l'ensemble d'entraînement pour le résultat de classification dans l'apprentissage supervisé, qui est généralement utilisé pour l'estimation des erreurs et l'évaluation des effets. Dans l'apprentissage supervisé, les données étiquetées apparaissent généralement sous la forme (x, t), où x représente les données d'entrée et t représente l'étiquette. L'étiquette correcte est Grou […]
La décomposition erreur-divergence fait référence au processus de décomposition de l'erreur de généralisation intégrée, qui peut être exprimée comme suit : $latex {E= \overline {E}- \overline {A}}$ où le côté gauche E représente l'erreur de généralisation intégrée, et le côté droit $latex {\over […]
MCMC est un algorithme d'échantillonnage à partir de distributions aléatoires basées sur des chaînes de Markov, qui approxime la distribution postérieure du paramètre d'intérêt en échantillonnant aléatoirement dans l'espace de probabilité. La théorie de base du MCMC est le processus de Markov. Dans les algorithmes connexes, afin d'échantillonner sur une distribution spécifiée, nous pouvons simuler à partir de n'importe quel état selon le processus de Markov.
L'algorithme évolutionnaire est une méthode générale de résolution de problèmes qui s'appuie sur la sélection naturelle et les mécanismes génétiques naturels du monde biologique. Méthode de base : Utiliser une technologie de codage simple pour représenter diverses structures complexes, utiliser des opérations génétiques simples et la sélection naturelle de survie du plus apte pour guider l'apprentissage et déterminer la direction de la recherche ; Utilisez la population pour organiser la recherche, de sorte que […]
L'algorithme génétique (AG) est un algorithme de recherche utilisé en mathématiques computationnelles pour résoudre des problèmes d'optimisation. Il s’agit d’un type d’algorithme évolutionniste, qui s’inspire à l’origine de certains phénomènes de la biologie évolutive, notamment l’hérédité, la mutation, la sélection naturelle et l’hybridation. Les algorithmes génétiques sont généralement mis en œuvre sous forme de simulation informatique. Pour un problème d’optimisation, il y a […]
Le taux de gain fait généralement référence au taux de gain d'informations, qui représente le rapport entre les informations du nœud et la mesure des informations de division du nœud. Le taux de gain est généralement utilisé comme l’une des méthodes de sélection des attributs. Les deux autres méthodes courantes sont le gain d’informations et l’indice de Gini. La formule du rapport de gain est la suivante : $latex {GainRatio{ \left( {R} […]
L'espace de Hilbert est un espace de produit scalaire complet, qui peut être compris comme un espace vectoriel complet avec produit scalaire. L'espace d'Albert est basé sur l'espace euclidien de dimension finie et peut être considéré comme une généralisation de ce dernier. Elle ne se limite pas aux nombres réels et aux dimensions finies, mais elle n’est pas complète. Comme l’espace euclidien, l’espace de Hilbert est un espace de produit scalaire et possède des distances et des angles […]
Le modèle de Markov caché (HMM) est un modèle probabiliste de séries temporelles, qui décrit le processus de génération d'une séquence aléatoire observable d'états non observables à partir de chaque état par une chaîne de Markov cachée. Les modèles de Markov cachés sont des modèles statistiques utilisés pour décrire un modèle de Markov avec des paramètres inconnus cachés.
La couche cachée fait référence à la couche autre que la couche d'entrée et la couche de sortie dans un réseau neuronal à propagation directe à plusieurs niveaux. La couche cachée ne reçoit pas directement de signaux externes et n’envoie pas directement de signaux au monde extérieur. Cela n'est nécessaire que lorsque les données sont séparées de manière non linéaire. Les neurones dans les couches cachées peuvent prendre de nombreuses formes, telles que des couches de pooling maximal et des couches convolutives, chacune exécutant une fonction mathématique différente, […]
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.
La fonction de perte exponentielle est une fonction de perte couramment utilisée dans l'algorithme AdaBoost. Son expression fonctionnelle est sous forme exponentielle, comme le montre le diagramme suivant. Erreur de perte courante Perte exponentielle Perte exponentielle : principalement utilisée dans l'algorithme d'apprentissage d'ensemble Adaboost ; Perte de charnière H […]
Dans le domaine de l'apprentissage automatique, la vérité fait référence à la valeur de réglage précise de l'ensemble d'entraînement pour le résultat de classification dans l'apprentissage supervisé, qui est généralement utilisé pour l'estimation des erreurs et l'évaluation des effets. Dans l'apprentissage supervisé, les données étiquetées apparaissent généralement sous la forme (x, t), où x représente les données d'entrée et t représente l'étiquette. L'étiquette correcte est Grou […]
La décomposition erreur-divergence fait référence au processus de décomposition de l'erreur de généralisation intégrée, qui peut être exprimée comme suit : $latex {E= \overline {E}- \overline {A}}$ où le côté gauche E représente l'erreur de généralisation intégrée, et le côté droit $latex {\over […]
MCMC est un algorithme d'échantillonnage à partir de distributions aléatoires basées sur des chaînes de Markov, qui approxime la distribution postérieure du paramètre d'intérêt en échantillonnant aléatoirement dans l'espace de probabilité. La théorie de base du MCMC est le processus de Markov. Dans les algorithmes connexes, afin d'échantillonner sur une distribution spécifiée, nous pouvons simuler à partir de n'importe quel état selon le processus de Markov.
L'algorithme évolutionnaire est une méthode générale de résolution de problèmes qui s'appuie sur la sélection naturelle et les mécanismes génétiques naturels du monde biologique. Méthode de base : Utiliser une technologie de codage simple pour représenter diverses structures complexes, utiliser des opérations génétiques simples et la sélection naturelle de survie du plus apte pour guider l'apprentissage et déterminer la direction de la recherche ; Utilisez la population pour organiser la recherche, de sorte que […]
L'algorithme génétique (AG) est un algorithme de recherche utilisé en mathématiques computationnelles pour résoudre des problèmes d'optimisation. Il s’agit d’un type d’algorithme évolutionniste, qui s’inspire à l’origine de certains phénomènes de la biologie évolutive, notamment l’hérédité, la mutation, la sélection naturelle et l’hybridation. Les algorithmes génétiques sont généralement mis en œuvre sous forme de simulation informatique. Pour un problème d’optimisation, il y a […]
Le taux de gain fait généralement référence au taux de gain d'informations, qui représente le rapport entre les informations du nœud et la mesure des informations de division du nœud. Le taux de gain est généralement utilisé comme l’une des méthodes de sélection des attributs. Les deux autres méthodes courantes sont le gain d’informations et l’indice de Gini. La formule du rapport de gain est la suivante : $latex {GainRatio{ \left( {R} […]
L'espace de Hilbert est un espace de produit scalaire complet, qui peut être compris comme un espace vectoriel complet avec produit scalaire. L'espace d'Albert est basé sur l'espace euclidien de dimension finie et peut être considéré comme une généralisation de ce dernier. Elle ne se limite pas aux nombres réels et aux dimensions finies, mais elle n’est pas complète. Comme l’espace euclidien, l’espace de Hilbert est un espace de produit scalaire et possède des distances et des angles […]
Le modèle de Markov caché (HMM) est un modèle probabiliste de séries temporelles, qui décrit le processus de génération d'une séquence aléatoire observable d'états non observables à partir de chaque état par une chaîne de Markov cachée. Les modèles de Markov cachés sont des modèles statistiques utilisés pour décrire un modèle de Markov avec des paramètres inconnus cachés.
La couche cachée fait référence à la couche autre que la couche d'entrée et la couche de sortie dans un réseau neuronal à propagation directe à plusieurs niveaux. La couche cachée ne reçoit pas directement de signaux externes et n’envoie pas directement de signaux au monde extérieur. Cela n'est nécessaire que lorsque les données sont séparées de manière non linéaire. Les neurones dans les couches cachées peuvent prendre de nombreuses formes, telles que des couches de pooling maximal et des couches convolutives, chacune exécutant une fonction mathématique différente, […]