Command Palette
Search for a command to run...
Wiki
Glossaire du Machine Learning : Explorez les définitions et explications des concepts clés de l'IA et du ML
La régression linéaire multiple est une régression linéaire effectuée sur plusieurs variables. La méthode de régression linéaire multiple est similaire à la méthode de régression univariée, sauf qu'il existe davantage de variables et de paramètres indépendants. Fonctions courantes de la régression multiple Coefficient de corrélation linéaire entre les variables cor(dataframe) Matrice de nuages de points scatterplotMatrix […]
Le rasoir d'Occam stipule que s'il existe plusieurs hypothèses cohérentes avec les observations, la plus simple doit être choisie. Le rasoir d’Occam est souvent utilisé comme technique heuristique. Il s’agit d’un outil permettant d’aider les gens à développer des modèles théoriques et ne peut pas être utilisé comme base pour juger des théories.
Les estimations out-of-bag font référence aux résultats de test où les échantillons utilisés pour les tests n'apparaissent pas dans l'ensemble d'apprentissage.
L’estimation des paramètres fait référence à l’estimation des indicateurs de population à l’aide d’indicateurs d’échantillon. Plus précisément, la moyenne de l’échantillon est utilisée pour estimer la moyenne de la population, ou le taux d’échantillonnage est utilisé pour estimer le taux de population.
L'étiquetage des parties du discours (étiquetage POS) est le processus de classification et d'étiquetage des mots dans une phrase. Il s’agit du processus d’attribution d’une étiquette de partie du discours à chaque mot par le biais d’une classification des parties du discours basée sur les composants qu’il porte dans la structure syntaxique ou la morphologie de la langue.
Le classificateur semi-naïf de Bayes est une méthode de classification qui prend en compte l'interdépendance entre certains attributs. Il s’agit d’une stratégie de relaxation lorsque l’indépendance mutuelle des caractéristiques du classificateur bayésien naïf est difficile à satisfaire.
L'apprentissage semi-supervisé est une technique d'apprentissage entre l'apprentissage supervisé et l'apprentissage non supervisé. Il utilise des échantillons étiquetés et non étiquetés pour l'apprentissage.
Un point selle est un point stationnaire qui n'est pas un point extrême local.
L'espace de version est le sous-ensemble de toutes les hypothèses d'apprentissage de concepts qui sont cohérentes avec l'ensemble de données connu et est souvent utilisé pour converger vers le contenu.
La désambiguïsation du sens des mots (WSD) est une désambiguïsation sémantique au niveau du mot.
Le réseau résiduel (ResNet) est basé sur un réseau simple, avec des connexions de raccourci insérées pour convertir le réseau dans sa version résiduelle correspondante. Le réseau résiduel ne correspond pas directement à la cible, mais correspond au résidu.
Le théorème de représentation est un théorème d'apprentissage statistique qui stipule que le minimum d'une fonction de risque régularisée définie sur un espace de Hilbert à noyau reproducteur peut être représenté comme une combinaison linéaire des points d'entrée dans l'ensemble d'apprentissage.
La machine à vecteurs de support semi-supervisée (S3VM) est une généralisation de la machine à vecteurs de support dans l'apprentissage semi-supervisé.
L'intégration de mots est un terme général pour les modèles de langage et les techniques d'apprentissage de représentation dans le traitement du langage naturel (TAL).
La désambiguïsation du sens des mots (WSD) est une désambiguïsation sémantique au niveau du mot. Il s’agit d’un problème ouvert dans le traitement du langage naturel et l’ontologie. L’ambiguïté et la désambiguïsation sont les problèmes fondamentaux de la compréhension du langage naturel. Aux niveaux du sens des mots, du sens des phrases et du sens des paragraphes, il y aura des phénomènes dans lesquels la sémantique du langage diffère selon le contexte. La désambiguïsation fait référence au processus de détermination de la sémantique d’un objet en fonction du contexte.
La tokenisation, également connue sous le nom d'analyse lexicale, est le processus de conversion de caractères (par exemple, dans un programme informatique ou une page Web) en jetons (chaînes de caractères avec des significations attribuées et donc identifiées).
L'inférence variationnelle utilise une distribution connue pour l'ajuster afin de l'adapter à la distribution dont nous avons besoin, mais elle est difficile à exprimer dans une formule.
Un modèle de référence est un modèle utilisé comme référence et comparaison. Dans la définition de l'Organisation pour la promotion des normes d'information structurée, il est utilisé pour comprendre les relations importantes entre les entités dans un environnement donné et pour développer un cadre général de normes ou de spécifications pour soutenir cet environnement. Résumé du concept : Les modèles de référence sont utilisés pour fournir des informations sur un environnement et pour décrire […]
La méthode de repondération signifie qu'à chaque tour du processus de formation, un poids est réattribué à chaque échantillon de formation en fonction de la distribution de l'échantillon.
La distribution marginale fait référence à la distribution de probabilité de certaines variables seulement parmi les variables aléatoires multidimensionnelles en théorie des probabilités et en statistique. Définitions Supposons qu'il existe une distribution de probabilité associée à deux variables : $latex P(x, y) $ La distribution marginale par rapport à l'une des variables est alors la distribution de probabilité conditionnelle étant donné les autres variables : $lat […]
La marginalisation est une méthode permettant de découvrir une variable en fonction d’une autre variable. Il détermine la contribution marginale d'une autre variable en additionnant les valeurs possibles de la variable. Cette définition est relativement abstraite et est décrite ci-dessous à l’aide de cas pertinents. En supposant que nous ayons besoin de connaître l’impact de la météo sur l’indice de bonheur, nous pouvons utiliser P (bonheur | météo) pour le représenter, c’est-à-dire, étant donné le type de météo […]
Le clustering hiérarchique est un ensemble d'algorithmes qui forment des clusters imbriqués en fusionnant continuellement de bas en haut ou en divisant continuellement de haut en bas. Cette classe hiérarchique est représentée par un « dendrogramme », et l'algorithme de clustering agglomératif en fait partie. Le clustering hiérarchique tente de regrouper les données à différents « niveaux » […]
La théorie des jeux, également connue sous le nom de théorie de la stratégie, théorie des tournois, etc., n'est pas seulement une nouvelle branche des mathématiques modernes, mais également une discipline importante de la recherche opérationnelle. La recherche principale porte sur l'interaction entre les structures d'incitation, qui prend en compte les comportements prédits et réels des individus dans le jeu et étudie les stratégies d'optimisation associées. Le comportement de jeu fait référence à un comportement de nature compétitive ou conflictuelle. Dans un tel comportement […]
La machine d'apprentissage extrême est un modèle de réseau neuronal dans le domaine de l'apprentissage automatique, qui peut être utilisé pour résoudre des réseaux neuronaux à propagation directe à couche cachée unique. Contrairement aux réseaux neuronaux à propagation directe traditionnels (tels que les réseaux neuronaux BP) qui nécessitent la définition manuelle d'un grand nombre de paramètres d'entraînement, l'algorithme d'apprentissage extrême n'a besoin que de définir la structure du réseau sans définir d'autres paramètres, il est donc simple et facile à […]
La régression linéaire multiple est une régression linéaire effectuée sur plusieurs variables. La méthode de régression linéaire multiple est similaire à la méthode de régression univariée, sauf qu'il existe davantage de variables et de paramètres indépendants. Fonctions courantes de la régression multiple Coefficient de corrélation linéaire entre les variables cor(dataframe) Matrice de nuages de points scatterplotMatrix […]
Le rasoir d'Occam stipule que s'il existe plusieurs hypothèses cohérentes avec les observations, la plus simple doit être choisie. Le rasoir d’Occam est souvent utilisé comme technique heuristique. Il s’agit d’un outil permettant d’aider les gens à développer des modèles théoriques et ne peut pas être utilisé comme base pour juger des théories.
Les estimations out-of-bag font référence aux résultats de test où les échantillons utilisés pour les tests n'apparaissent pas dans l'ensemble d'apprentissage.
L’estimation des paramètres fait référence à l’estimation des indicateurs de population à l’aide d’indicateurs d’échantillon. Plus précisément, la moyenne de l’échantillon est utilisée pour estimer la moyenne de la population, ou le taux d’échantillonnage est utilisé pour estimer le taux de population.
L'étiquetage des parties du discours (étiquetage POS) est le processus de classification et d'étiquetage des mots dans une phrase. Il s’agit du processus d’attribution d’une étiquette de partie du discours à chaque mot par le biais d’une classification des parties du discours basée sur les composants qu’il porte dans la structure syntaxique ou la morphologie de la langue.
Le classificateur semi-naïf de Bayes est une méthode de classification qui prend en compte l'interdépendance entre certains attributs. Il s’agit d’une stratégie de relaxation lorsque l’indépendance mutuelle des caractéristiques du classificateur bayésien naïf est difficile à satisfaire.
L'apprentissage semi-supervisé est une technique d'apprentissage entre l'apprentissage supervisé et l'apprentissage non supervisé. Il utilise des échantillons étiquetés et non étiquetés pour l'apprentissage.
Un point selle est un point stationnaire qui n'est pas un point extrême local.
L'espace de version est le sous-ensemble de toutes les hypothèses d'apprentissage de concepts qui sont cohérentes avec l'ensemble de données connu et est souvent utilisé pour converger vers le contenu.
La désambiguïsation du sens des mots (WSD) est une désambiguïsation sémantique au niveau du mot.
Le réseau résiduel (ResNet) est basé sur un réseau simple, avec des connexions de raccourci insérées pour convertir le réseau dans sa version résiduelle correspondante. Le réseau résiduel ne correspond pas directement à la cible, mais correspond au résidu.
Le théorème de représentation est un théorème d'apprentissage statistique qui stipule que le minimum d'une fonction de risque régularisée définie sur un espace de Hilbert à noyau reproducteur peut être représenté comme une combinaison linéaire des points d'entrée dans l'ensemble d'apprentissage.
La machine à vecteurs de support semi-supervisée (S3VM) est une généralisation de la machine à vecteurs de support dans l'apprentissage semi-supervisé.
L'intégration de mots est un terme général pour les modèles de langage et les techniques d'apprentissage de représentation dans le traitement du langage naturel (TAL).
La désambiguïsation du sens des mots (WSD) est une désambiguïsation sémantique au niveau du mot. Il s’agit d’un problème ouvert dans le traitement du langage naturel et l’ontologie. L’ambiguïté et la désambiguïsation sont les problèmes fondamentaux de la compréhension du langage naturel. Aux niveaux du sens des mots, du sens des phrases et du sens des paragraphes, il y aura des phénomènes dans lesquels la sémantique du langage diffère selon le contexte. La désambiguïsation fait référence au processus de détermination de la sémantique d’un objet en fonction du contexte.
La tokenisation, également connue sous le nom d'analyse lexicale, est le processus de conversion de caractères (par exemple, dans un programme informatique ou une page Web) en jetons (chaînes de caractères avec des significations attribuées et donc identifiées).
L'inférence variationnelle utilise une distribution connue pour l'ajuster afin de l'adapter à la distribution dont nous avons besoin, mais elle est difficile à exprimer dans une formule.
Un modèle de référence est un modèle utilisé comme référence et comparaison. Dans la définition de l'Organisation pour la promotion des normes d'information structurée, il est utilisé pour comprendre les relations importantes entre les entités dans un environnement donné et pour développer un cadre général de normes ou de spécifications pour soutenir cet environnement. Résumé du concept : Les modèles de référence sont utilisés pour fournir des informations sur un environnement et pour décrire […]
La méthode de repondération signifie qu'à chaque tour du processus de formation, un poids est réattribué à chaque échantillon de formation en fonction de la distribution de l'échantillon.
La distribution marginale fait référence à la distribution de probabilité de certaines variables seulement parmi les variables aléatoires multidimensionnelles en théorie des probabilités et en statistique. Définitions Supposons qu'il existe une distribution de probabilité associée à deux variables : $latex P(x, y) $ La distribution marginale par rapport à l'une des variables est alors la distribution de probabilité conditionnelle étant donné les autres variables : $lat […]
La marginalisation est une méthode permettant de découvrir une variable en fonction d’une autre variable. Il détermine la contribution marginale d'une autre variable en additionnant les valeurs possibles de la variable. Cette définition est relativement abstraite et est décrite ci-dessous à l’aide de cas pertinents. En supposant que nous ayons besoin de connaître l’impact de la météo sur l’indice de bonheur, nous pouvons utiliser P (bonheur | météo) pour le représenter, c’est-à-dire, étant donné le type de météo […]
Le clustering hiérarchique est un ensemble d'algorithmes qui forment des clusters imbriqués en fusionnant continuellement de bas en haut ou en divisant continuellement de haut en bas. Cette classe hiérarchique est représentée par un « dendrogramme », et l'algorithme de clustering agglomératif en fait partie. Le clustering hiérarchique tente de regrouper les données à différents « niveaux » […]
La théorie des jeux, également connue sous le nom de théorie de la stratégie, théorie des tournois, etc., n'est pas seulement une nouvelle branche des mathématiques modernes, mais également une discipline importante de la recherche opérationnelle. La recherche principale porte sur l'interaction entre les structures d'incitation, qui prend en compte les comportements prédits et réels des individus dans le jeu et étudie les stratégies d'optimisation associées. Le comportement de jeu fait référence à un comportement de nature compétitive ou conflictuelle. Dans un tel comportement […]
La machine d'apprentissage extrême est un modèle de réseau neuronal dans le domaine de l'apprentissage automatique, qui peut être utilisé pour résoudre des réseaux neuronaux à propagation directe à couche cachée unique. Contrairement aux réseaux neuronaux à propagation directe traditionnels (tels que les réseaux neuronaux BP) qui nécessitent la définition manuelle d'un grand nombre de paramètres d'entraînement, l'algorithme d'apprentissage extrême n'a besoin que de définir la structure du réseau sans définir d'autres paramètres, il est donc simple et facile à […]