Command Palette
Search for a command to run...
Wiki
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
La corrélation en cascade est définie comme une architecture d’apprentissage supervisé qui peut être utilisée pour créer une topologie de réseau multicouche minimale. Son avantage est que les utilisateurs n’ont pas à se soucier de la structure topologique du réseau et sa vitesse d’apprentissage est plus rapide que celle des algorithmes d’apprentissage traditionnels. Algorithme de corrélation L'algorithme de corrélation en cascade est mis en œuvre en commençant par un réseau minimal composé uniquement des entrées et des sorties […]
Définition : Dans des conditions déterminées, utiliser un étalon de référence pour attribuer des valeurs aux caractéristiques d'un instrument de mesure, y compris un matériau de référence, et déterminer son erreur d'indication. Objectif Déterminer l’erreur de l’indication et si elle se situe dans la plage de tolérance attendue ; Pour obtenir une valeur rapportée de l'écart par rapport à la valeur nominale et pour ajuster l'instrument de mesure ou corriger l'indication ; Pour donner à n’importe quel […]
Définition Pour l'équation différentielle $latex \frac{d \mathbf{x}}{dt}=\mathbf{f}(t, \mathbf{x}), \mathbf{x} \in \mathbb{R}^{n}$ , si $latex […]
L'amorçage est un échantillonnage uniforme avec remplacement à partir d'un ensemble d'apprentissage donné, c'est-à-dire que chaque fois qu'un échantillon est sélectionné, il est tout aussi susceptible d'être sélectionné à nouveau et ajouté à l'ensemble d'apprentissage. La méthode bootstrap a été proposée pour la première fois par Bradley Efron dans Annals of Statistics en 1979.
Pour un échantillon, la probabilité d'être collecté à chaque fois dans un échantillonnage aléatoire d'un ensemble d'apprentissage contenant m échantillons est de 1 m. La probabilité de ne pas être collecté est de 1 à 1 m. Si la probabilité que m échantillons ne soient pas collectés est (1−1m)m, alors lorsque m→∞, (1−1m)m→1/e≃0 […]
Une machine de Boltzmann est un type de réseau neuronal aléatoire et de réseau neuronal récurrent inventé par Geoffrey Hinton et Terry Sejnowski en 1985. Une machine de Boltzmann peut être considérée comme un processus aléatoire qui génère le […]
Définition : Une méthode de bissection est un algorithme dont l'entrée est une liste ordonnée d'éléments. Si l'élément recherché est contenu dans la liste, la recherche binaire renvoie sa position ; sinon il renvoie null. Idée de base : cette méthode convient lorsque la quantité de données est importante. Lors de l'utilisation de la recherche binaire, les données doivent être triées. Supposons que les données soient classées par ordre croissant […]
Définition Le test binomial compare les fréquences observées des deux catégories d'une variable dichotomique avec les fréquences attendues sous une distribution binomiale avec un paramètre de probabilité spécifié. Par défaut, le paramètre de probabilité est de 0,5 pour les deux groupes. Exemple : Une pièce est lancée et la probabilité que ce soit face est de 1/2. Dans cette hypothèse, une pièce est lancée 40 fois […]
Indique qu'il n'y a que deux catégories dans la tâche de classification, par exemple, nous voulons identifier si une image est un chat ou non. Autrement dit, entraînez un classificateur, entrez une image, représentée par le vecteur de caractéristiques x, et indiquez s'il s'agit d'un chat, représenté par y = 0 ou 1 ; La classification à deux classes suppose que chaque échantillon est défini avec une et une seule étiquette 0 […]
Définition : Les réseaux neuronaux profonds ont démontré des résultats supérieurs dans de nombreux domaines tels que la reconnaissance vocale, le traitement d’images et le traitement du langage naturel. LSTM, en tant que variante de RNN, peut apprendre les dépendances à long terme dans les données par rapport à RNN. En 2005, Graves a proposé de combiner LSTM avec […]
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.
La corrélation en cascade est définie comme une architecture d’apprentissage supervisé qui peut être utilisée pour créer une topologie de réseau multicouche minimale. Son avantage est que les utilisateurs n’ont pas à se soucier de la structure topologique du réseau et sa vitesse d’apprentissage est plus rapide que celle des algorithmes d’apprentissage traditionnels. Algorithme de corrélation L'algorithme de corrélation en cascade est mis en œuvre en commençant par un réseau minimal composé uniquement des entrées et des sorties […]
Définition : Dans des conditions déterminées, utiliser un étalon de référence pour attribuer des valeurs aux caractéristiques d'un instrument de mesure, y compris un matériau de référence, et déterminer son erreur d'indication. Objectif Déterminer l’erreur de l’indication et si elle se situe dans la plage de tolérance attendue ; Pour obtenir une valeur rapportée de l'écart par rapport à la valeur nominale et pour ajuster l'instrument de mesure ou corriger l'indication ; Pour donner à n’importe quel […]
Définition Pour l'équation différentielle $latex \frac{d \mathbf{x}}{dt}=\mathbf{f}(t, \mathbf{x}), \mathbf{x} \in \mathbb{R}^{n}$ , si $latex […]
L'amorçage est un échantillonnage uniforme avec remplacement à partir d'un ensemble d'apprentissage donné, c'est-à-dire que chaque fois qu'un échantillon est sélectionné, il est tout aussi susceptible d'être sélectionné à nouveau et ajouté à l'ensemble d'apprentissage. La méthode bootstrap a été proposée pour la première fois par Bradley Efron dans Annals of Statistics en 1979.
Pour un échantillon, la probabilité d'être collecté à chaque fois dans un échantillonnage aléatoire d'un ensemble d'apprentissage contenant m échantillons est de 1 m. La probabilité de ne pas être collecté est de 1 à 1 m. Si la probabilité que m échantillons ne soient pas collectés est (1−1m)m, alors lorsque m→∞, (1−1m)m→1/e≃0 […]
Une machine de Boltzmann est un type de réseau neuronal aléatoire et de réseau neuronal récurrent inventé par Geoffrey Hinton et Terry Sejnowski en 1985. Une machine de Boltzmann peut être considérée comme un processus aléatoire qui génère le […]
Définition : Une méthode de bissection est un algorithme dont l'entrée est une liste ordonnée d'éléments. Si l'élément recherché est contenu dans la liste, la recherche binaire renvoie sa position ; sinon il renvoie null. Idée de base : cette méthode convient lorsque la quantité de données est importante. Lors de l'utilisation de la recherche binaire, les données doivent être triées. Supposons que les données soient classées par ordre croissant […]
Définition Le test binomial compare les fréquences observées des deux catégories d'une variable dichotomique avec les fréquences attendues sous une distribution binomiale avec un paramètre de probabilité spécifié. Par défaut, le paramètre de probabilité est de 0,5 pour les deux groupes. Exemple : Une pièce est lancée et la probabilité que ce soit face est de 1/2. Dans cette hypothèse, une pièce est lancée 40 fois […]
Indique qu'il n'y a que deux catégories dans la tâche de classification, par exemple, nous voulons identifier si une image est un chat ou non. Autrement dit, entraînez un classificateur, entrez une image, représentée par le vecteur de caractéristiques x, et indiquez s'il s'agit d'un chat, représenté par y = 0 ou 1 ; La classification à deux classes suppose que chaque échantillon est défini avec une et une seule étiquette 0 […]
Définition : Les réseaux neuronaux profonds ont démontré des résultats supérieurs dans de nombreux domaines tels que la reconnaissance vocale, le traitement d’images et le traitement du langage naturel. LSTM, en tant que variante de RNN, peut apprendre les dépendances à long terme dans les données par rapport à RNN. En 2005, Graves a proposé de combiner LSTM avec […]
Le dilemme biais-variance signifie qu’il est impossible de réduire à la fois le biais et la variance, et que l’on ne peut parvenir qu’à un équilibre entre les deux. Dans le modèle, si vous souhaitez réduire l’écart, vous augmenterez la complexité du modèle pour éviter le sous-ajustement ; mais en même temps, vous ne pouvez pas rendre le modèle trop complexe, ce qui augmenterait la variance et provoquerait un surajustement. Il faut donc trouver un équilibre dans la complexité du modèle.
La « décomposition biais-variance » est un outil qui explique les performances de généralisation des algorithmes d'apprentissage du point de vue du biais et de la variance. La définition spécifique est la suivante : Supposons qu'il existe K ensembles de données, chacun d'eux étant extrait indépendamment d'une distribution p(t,x) (t représente la variable à prédire et x représente la variable caractéristique). Dans différents […]
Définition : La différence entre la sortie attendue et l’étiquette réelle est appelée biais. La figure suivante peut bien illustrer la relation entre biais et variance :
La matrice de dispersion inter-classes est utilisée pour représenter la distribution des points d'échantillonnage autour de la moyenne. Définition mathématique
Définition Le réseau bayésien est l’un des modèles théoriques les plus efficaces dans le domaine de l’expression et du raisonnement des connaissances incertaines. Un réseau bayésien est constitué de nœuds représentant des variables et d'arêtes dirigées reliant ces nœuds. Les nœuds représentent des variables aléatoires. Les arêtes dirigées entre les nœuds représentent les relations entre les nœuds. La force de la relation est exprimée à l’aide d’une probabilité conditionnelle. Il n’y a pas de nœud parent […]
Concepts de base La théorie de la décision bayésienne est une méthode de base dans la prise de décision à l'aide de modèles statistiques. Son idée de base est la suivante : l'expression du paramètre de densité de probabilité conditionnelle de classe connue et la probabilité a priori sont converties en probabilité a posteriori à l'aide de la formule bayésienne. La classification des décisions est effectuée en fonction de la taille de la probabilité postérieure. Formule associée Soient D1, D2, ..., Dn des échantillons […]
Afin de minimiser le risque global, l'étiquette de classe qui peut minimiser le risque R(c|x) sur l'échantillon est sélectionnée, c'est-à-dire que h∗ est le classificateur optimal bayésien.
Lors de la sélection d'un modèle, on sélectionne généralement un « meilleur » modèle parmi un ensemble de modèles candidats, puis on utilise ce « meilleur » modèle sélectionné pour la prédiction. Contrairement à un modèle optimal unique, la moyenne du modèle bayésien attribue des pondérations à chaque modèle et effectue une moyenne pondérée pour déterminer la valeur de prédiction finale. Parmi eux, le poids attribué à un modèle est […]
Pour chaque échantillon x, si h peut minimiser le risque conditionnel R(h(x)|x), alors le risque global sera également minimisé. Cela conduit à la règle de décision de Bayes : pour minimiser le risque global, il suffit de choisir celui qui rend le risque conditionnel R(c|x […]
BN est un ensemble de méthodes de régularisation qui peuvent accélérer la formation de grands réseaux convolutifs et améliorer la précision de la classification après convergence. Lorsque BN est utilisé dans une certaine couche d'un réseau neuronal, il normalisera les données internes de chaque mini-lot, normalisera la sortie à la distribution normale de N(0,1) et réduira […]
Dans l’apprentissage d’ensemble, les « apprenants individuels » générés par le groupe sont homogènes. Ces apprenants sont appelés apprenants de base et les algorithmes d’apprentissage correspondants sont appelés algorithmes d’apprentissage de base.
La mémoire à long terme (LSTM) est un réseau neuronal récursif dans le temps (RNN) publié pour la première fois en 1997. En raison de sa structure de conception unique, le LSTM est adapté au traitement et à la prédiction d'événements importants dans des séries temporelles avec des intervalles et des retards très longs […]
L'entropie d'information est une quantité permettant de mesurer la quantité d'information. Elle a été proposée par Shannon en 1948. Elle a emprunté le concept d'entropie en thermodynamique et a appelé la quantité moyenne d'information après avoir exclu la redondance dans l'information entropie de l'information, et a donné l'expression mathématique correspondante. Les trois propriétés de l’entropie de l’information sont la monotonie : plus la probabilité d’un événement est élevée, plus il transporte d’informations […]
La représentation des connaissances fait référence à la représentation et à la description des connaissances. Il s’agit de savoir comment les agents peuvent raisonnablement utiliser les connaissances pertinentes. Il s’agit d’une étude de la pensée en tant que processus informatique. À proprement parler, la représentation des connaissances et le raisonnement des connaissances sont deux concepts étroitement liés dans le même domaine de recherche, mais en fait, la représentation des connaissances est également utilisée pour désigner un concept large qui inclut le raisonnement.