Command Palette
Search for a command to run...
Wiki
Machine Learning Glossary: Explore definitions and explanations of key AI and ML concepts
Eine Boltzmann-Maschine ist eine Art zufälliges neuronales Netzwerk und rekurrentes neuronales Netzwerk, das 1985 von Geoffrey Hinton und Terry Sejnowski erfunden wurde. Eine Boltzmann-Maschine kann als ein zufälliger Prozess betrachtet werden, der die entsprechenden […] generiert.
Definition: Eine Bisektionsmethode ist ein Algorithmus, dessen Eingabe eine geordnete Liste von Elementen ist. Wenn das gesuchte Element in der Liste enthalten ist, gibt die binäre Suche seine Position zurück. andernfalls wird null zurückgegeben. Grundidee: Diese Methode eignet sich, wenn die Datenmenge groß ist. Bei der binären Suche müssen die Daten sortiert werden. Gehen Sie davon aus, dass die Daten in aufsteigender Reihenfolge sind […]
Definition: Der Binomialtest vergleicht die beobachteten Häufigkeiten der beiden Kategorien einer dichotomen Variablen mit den erwarteten Häufigkeiten unter einer Binomialverteilung mit einem angegebenen Wahrscheinlichkeitsparameter. Standardmäßig beträgt der Wahrscheinlichkeitsparameter für beide Gruppen 0,5. Beispiel: Eine Münze wird geworfen und die Wahrscheinlichkeit für Kopf beträgt 1/2. Unter dieser Annahme wird eine Münze 40 Mal geworfen […]
Gibt an, dass es bei der Klassifizierungsaufgabe nur zwei Kategorien gibt. Beispielsweise möchten wir feststellen, ob ein Bild eine Katze darstellt oder nicht. Das heißt, trainieren Sie einen Klassifikator, geben Sie ein Bild ein, das durch den Merkmalsvektor x dargestellt wird, und geben Sie aus, ob es sich um eine Katze handelt, dargestellt durch y = 0 oder 1; Bei der Zwei-Klassen-Klassifizierung wird davon ausgegangen, dass jede Probe mit genau einem Label 0 […] versehen ist.
Definition: Tiefe neuronale Netzwerke haben in vielen Bereichen wie Spracherkennung, Bildverarbeitung und Verarbeitung natürlicher Sprache hervorragende Ergebnisse gezeigt. LSTM kann als Variante von RNN im Vergleich zu RNN langfristige Abhängigkeiten in Daten lernen. Im Jahr 2005 schlug Graves vor, LSTM mit […] zu kombinieren.
Das Bias-Varianz-Dilemma bedeutet, dass es unmöglich ist, Bias und Varianz gleichzeitig zu reduzieren, und dass man nur ein Gleichgewicht zwischen beiden erreichen kann. Wenn Sie im Modell die Abweichung verringern möchten, erhöhen Sie die Komplexität des Modells, um eine Unteranpassung zu verhindern. Gleichzeitig dürfen Sie das Modell jedoch nicht zu komplex gestalten, da dies die Varianz erhöhen und zu einer Überanpassung führen würde. Daher müssen wir ein Gleichgewicht in der Komplexität des Modells finden.
„Bias-Varianz-Zerlegung“ ist ein Tool, das die Generalisierungsleistung von Lernalgorithmen aus der Perspektive von Bias und Varianz erklärt. Die spezifische Definition lautet wie folgt: Angenommen, es gibt K Datensätze, von denen jeder unabhängig aus einer Verteilung p(t,x) extrahiert wird (t stellt die vorherzusagende Variable dar und x stellt die Merkmalsvariable dar). In verschiedenen […]
Definition: Der Unterschied zwischen der erwarteten Ausgabe und der wahren Bezeichnung wird als Bias bezeichnet. Die folgende Abbildung kann den Zusammenhang zwischen Bias und Varianz gut veranschaulichen:
Die Streumatrix zwischen den Klassen wird verwendet, um die Streuung jedes Stichprobenpunkts um den Mittelwert darzustellen. Mathematische Definition
Definition: Das Bayes-Netzwerk ist eines der effektivsten theoretischen Modelle im Bereich des Ausdrucks und der Schlussfolgerung unsicheren Wissens. Ein Bayes-Netzwerk besteht aus Knoten, die Variablen darstellen, und gerichteten Kanten, die diese Knoten verbinden. Knoten stellen Zufallsvariablen dar. Die gerichteten Kanten zwischen Knoten stellen die Beziehungen zwischen Knoten dar. Die Stärke der Beziehung wird mithilfe der bedingten Wahrscheinlichkeit ausgedrückt. Es gibt keinen übergeordneten Knoten […]
Grundlegende Konzepte Die Bayes'sche Entscheidungstheorie ist eine grundlegende Methode zur Entscheidungsfindung mit statistischen Modellen. Die Grundidee ist: Der Ausdruck des Parameters „bedingte Wahrscheinlichkeitsdichte“ und die Vorwahrscheinlichkeit einer bekannten Klasse werden mithilfe der Bayes-Formel in eine Nachwahrscheinlichkeit umgewandelt. Die Entscheidungsklassifizierung erfolgt auf Grundlage der Größe der Posterior-Wahrscheinlichkeit. Zugehörige Formel: Seien D1, D2, ..., Dn Proben […]
Um das Gesamtrisiko zu minimieren, wird die Klassenbezeichnung ausgewählt, die das Risiko R(c|x) für die Stichprobe minimieren kann, d. h. h∗ ist der optimale Bayes-Klassifikator.
Bei der Modellauswahl wählt man typischerweise aus einer Reihe von Kandidatenmodellen das „beste“ Modell aus und verwendet dann dieses ausgewählte „beste“ Modell zur Vorhersage. Im Gegensatz zu einem einzelnen optimalen Modell weist die Bayes'sche Modellmittelung jedem Modell Gewichte zu und führt eine gewichtete Mittelwertbildung durch, um den endgültigen Vorhersagewert zu bestimmen. Darunter ist das einem Modell zugewiesene Gewicht […]
Wenn h für jede Stichprobe x das bedingte Risiko R(h(x)|x) minimieren kann, wird auch das Gesamtrisiko minimiert. Dies führt zur Bayes-Entscheidungsregel: Um das Gesamtrisiko zu minimieren, müssen wir nur diejenige auswählen, die das bedingte Risiko R(c|x […]) erfüllt.
BN ist eine Reihe von Regularisierungsmethoden, die das Training großer Faltungsnetzwerke beschleunigen und die Klassifizierungsgenauigkeit nach der Konvergenz verbessern können. Wenn BN in einer bestimmten Schicht eines neuronalen Netzwerks verwendet wird, standardisiert es die internen Daten jedes Mini-Batches, normalisiert die Ausgabe auf die Normalverteilung von N(0,1) und reduziert […]
Beim Ensemble-Lernen sind die von der Gruppe generierten „individuellen Lernenden“ homogen. Solche Lerner werden als Basislerner bezeichnet, und die entsprechenden Lernalgorithmen heißen Basislernalgorithmen.
Long Short-Term Memory (LSTM) ist ein zeitrekursives neuronales Netzwerk (RNN), das erstmals 1997 veröffentlicht wurde. Aufgrund seiner einzigartigen Designstruktur eignet sich LSTM für die Verarbeitung und Vorhersage wichtiger Ereignisse in Zeitreihen mit sehr langen Intervallen und Verzögerungen […]
Die Informationsentropie ist eine Größe, die sich zur Messung der Informationsmenge eignet. Es wurde 1948 von Shannon vorgeschlagen. Dabei wurde das Konzept der Entropie aus der Thermodynamik übernommen und die durchschnittliche Informationsmenge nach Ausschluss von Redundanz in Informationen als Informationsentropie bezeichnet und der entsprechende mathematische Ausdruck angegeben. Die drei Eigenschaften der Informationsentropie sind Monotonie: Je höher die Wahrscheinlichkeit eines Ereignisses, desto mehr Informationen enthält es […]
Unter Wissensrepräsentation versteht man die Darstellung und Beschreibung von Wissen. Es geht darum, wie Agenten relevantes Wissen sinnvoll nutzen können. Dies ist eine Studie des Denkens als Rechenprozess. Genau genommen handelt es sich bei Wissensrepräsentation und wissensbasierter Argumentation um zwei eng miteinander verbundene Konzepte im selben Forschungsfeld. Tatsächlich wird der Begriff Wissensrepräsentation jedoch auch verwendet, um ein umfassenderes Konzept zu bezeichnen, das auch die Argumentation einschließt.
Die exponentielle Verlustfunktion ist eine häufig verwendete Verlustfunktion im AdaBoost-Algorithmus. Der Funktionsausdruck liegt in Exponentialform vor, wie im folgenden Diagramm dargestellt. Häufiger Verlustfehler Exponentialer Verlust Exponentialer Verlust: Wird hauptsächlich im Ensemble-Lernalgorithmus von Adaboost verwendet; Scharnierverlust H […]
Im Bereich des maschinellen Lernens bezieht sich Wahrheit auf den genauen Einstellwert des Trainingssatzes für das Klassifizierungsergebnis beim überwachten Lernen, der im Allgemeinen zur Fehlerschätzung und Effektbewertung verwendet wird. Beim überwachten Lernen erscheinen beschriftete Daten normalerweise in der Form (x, t), wobei x die Eingabedaten und t die Beschriftung darstellt. Die richtige Bezeichnung ist Grou […]
Unter Fehler-Divergenz-Zerlegung versteht man den Prozess der Zerlegung des integrierten Generalisierungsfehlers, der wie folgt ausgedrückt werden kann: , wobei die linke Seite E den integrierten Generalisierungsfehler darstellt und die rechte Seite $latex {\over […]
MCMC ist ein Algorithmus zur Stichprobenziehung aus Zufallsverteilungen auf der Grundlage von Markow-Ketten, der die Posterior-Verteilung des betreffenden Parameters durch Zufallsstichprobenziehung im Wahrscheinlichkeitsraum approximiert. Die grundlegende Theorie von MCMC ist der Markow-Prozess. Um in verwandten Algorithmen eine Stichprobe auf einer bestimmten Verteilung zu ziehen, können wir gemäß dem Markow-Prozess von jedem Zustand aus simulieren.
Der Evolutionsalgorithmus ist eine allgemeine Methode zur Problemlösung, die auf der natürlichen Selektion und den natürlichen genetischen Mechanismen der biologischen Welt basiert. Grundlegende Methode: Verwenden Sie einfache Codierungstechnologie, um verschiedene komplexe Strukturen darzustellen, verwenden Sie einfache genetische Operationen und die natürliche Selektion des Überlebens des Stärkeren, um das Lernen zu steuern und die Suchrichtung zu bestimmen. Nutzen Sie die Bevölkerung, um die Suche zu organisieren, sodass […]
Eine Boltzmann-Maschine ist eine Art zufälliges neuronales Netzwerk und rekurrentes neuronales Netzwerk, das 1985 von Geoffrey Hinton und Terry Sejnowski erfunden wurde. Eine Boltzmann-Maschine kann als ein zufälliger Prozess betrachtet werden, der die entsprechenden […] generiert.
Definition: Eine Bisektionsmethode ist ein Algorithmus, dessen Eingabe eine geordnete Liste von Elementen ist. Wenn das gesuchte Element in der Liste enthalten ist, gibt die binäre Suche seine Position zurück. andernfalls wird null zurückgegeben. Grundidee: Diese Methode eignet sich, wenn die Datenmenge groß ist. Bei der binären Suche müssen die Daten sortiert werden. Gehen Sie davon aus, dass die Daten in aufsteigender Reihenfolge sind […]
Definition: Der Binomialtest vergleicht die beobachteten Häufigkeiten der beiden Kategorien einer dichotomen Variablen mit den erwarteten Häufigkeiten unter einer Binomialverteilung mit einem angegebenen Wahrscheinlichkeitsparameter. Standardmäßig beträgt der Wahrscheinlichkeitsparameter für beide Gruppen 0,5. Beispiel: Eine Münze wird geworfen und die Wahrscheinlichkeit für Kopf beträgt 1/2. Unter dieser Annahme wird eine Münze 40 Mal geworfen […]
Gibt an, dass es bei der Klassifizierungsaufgabe nur zwei Kategorien gibt. Beispielsweise möchten wir feststellen, ob ein Bild eine Katze darstellt oder nicht. Das heißt, trainieren Sie einen Klassifikator, geben Sie ein Bild ein, das durch den Merkmalsvektor x dargestellt wird, und geben Sie aus, ob es sich um eine Katze handelt, dargestellt durch y = 0 oder 1; Bei der Zwei-Klassen-Klassifizierung wird davon ausgegangen, dass jede Probe mit genau einem Label 0 […] versehen ist.
Definition: Tiefe neuronale Netzwerke haben in vielen Bereichen wie Spracherkennung, Bildverarbeitung und Verarbeitung natürlicher Sprache hervorragende Ergebnisse gezeigt. LSTM kann als Variante von RNN im Vergleich zu RNN langfristige Abhängigkeiten in Daten lernen. Im Jahr 2005 schlug Graves vor, LSTM mit […] zu kombinieren.
Das Bias-Varianz-Dilemma bedeutet, dass es unmöglich ist, Bias und Varianz gleichzeitig zu reduzieren, und dass man nur ein Gleichgewicht zwischen beiden erreichen kann. Wenn Sie im Modell die Abweichung verringern möchten, erhöhen Sie die Komplexität des Modells, um eine Unteranpassung zu verhindern. Gleichzeitig dürfen Sie das Modell jedoch nicht zu komplex gestalten, da dies die Varianz erhöhen und zu einer Überanpassung führen würde. Daher müssen wir ein Gleichgewicht in der Komplexität des Modells finden.
„Bias-Varianz-Zerlegung“ ist ein Tool, das die Generalisierungsleistung von Lernalgorithmen aus der Perspektive von Bias und Varianz erklärt. Die spezifische Definition lautet wie folgt: Angenommen, es gibt K Datensätze, von denen jeder unabhängig aus einer Verteilung p(t,x) extrahiert wird (t stellt die vorherzusagende Variable dar und x stellt die Merkmalsvariable dar). In verschiedenen […]
Definition: Der Unterschied zwischen der erwarteten Ausgabe und der wahren Bezeichnung wird als Bias bezeichnet. Die folgende Abbildung kann den Zusammenhang zwischen Bias und Varianz gut veranschaulichen:
Die Streumatrix zwischen den Klassen wird verwendet, um die Streuung jedes Stichprobenpunkts um den Mittelwert darzustellen. Mathematische Definition
Definition: Das Bayes-Netzwerk ist eines der effektivsten theoretischen Modelle im Bereich des Ausdrucks und der Schlussfolgerung unsicheren Wissens. Ein Bayes-Netzwerk besteht aus Knoten, die Variablen darstellen, und gerichteten Kanten, die diese Knoten verbinden. Knoten stellen Zufallsvariablen dar. Die gerichteten Kanten zwischen Knoten stellen die Beziehungen zwischen Knoten dar. Die Stärke der Beziehung wird mithilfe der bedingten Wahrscheinlichkeit ausgedrückt. Es gibt keinen übergeordneten Knoten […]
Grundlegende Konzepte Die Bayes'sche Entscheidungstheorie ist eine grundlegende Methode zur Entscheidungsfindung mit statistischen Modellen. Die Grundidee ist: Der Ausdruck des Parameters „bedingte Wahrscheinlichkeitsdichte“ und die Vorwahrscheinlichkeit einer bekannten Klasse werden mithilfe der Bayes-Formel in eine Nachwahrscheinlichkeit umgewandelt. Die Entscheidungsklassifizierung erfolgt auf Grundlage der Größe der Posterior-Wahrscheinlichkeit. Zugehörige Formel: Seien D1, D2, ..., Dn Proben […]
Um das Gesamtrisiko zu minimieren, wird die Klassenbezeichnung ausgewählt, die das Risiko R(c|x) für die Stichprobe minimieren kann, d. h. h∗ ist der optimale Bayes-Klassifikator.
Bei der Modellauswahl wählt man typischerweise aus einer Reihe von Kandidatenmodellen das „beste“ Modell aus und verwendet dann dieses ausgewählte „beste“ Modell zur Vorhersage. Im Gegensatz zu einem einzelnen optimalen Modell weist die Bayes'sche Modellmittelung jedem Modell Gewichte zu und führt eine gewichtete Mittelwertbildung durch, um den endgültigen Vorhersagewert zu bestimmen. Darunter ist das einem Modell zugewiesene Gewicht […]
Wenn h für jede Stichprobe x das bedingte Risiko R(h(x)|x) minimieren kann, wird auch das Gesamtrisiko minimiert. Dies führt zur Bayes-Entscheidungsregel: Um das Gesamtrisiko zu minimieren, müssen wir nur diejenige auswählen, die das bedingte Risiko R(c|x […]) erfüllt.
BN ist eine Reihe von Regularisierungsmethoden, die das Training großer Faltungsnetzwerke beschleunigen und die Klassifizierungsgenauigkeit nach der Konvergenz verbessern können. Wenn BN in einer bestimmten Schicht eines neuronalen Netzwerks verwendet wird, standardisiert es die internen Daten jedes Mini-Batches, normalisiert die Ausgabe auf die Normalverteilung von N(0,1) und reduziert […]
Beim Ensemble-Lernen sind die von der Gruppe generierten „individuellen Lernenden“ homogen. Solche Lerner werden als Basislerner bezeichnet, und die entsprechenden Lernalgorithmen heißen Basislernalgorithmen.
Long Short-Term Memory (LSTM) ist ein zeitrekursives neuronales Netzwerk (RNN), das erstmals 1997 veröffentlicht wurde. Aufgrund seiner einzigartigen Designstruktur eignet sich LSTM für die Verarbeitung und Vorhersage wichtiger Ereignisse in Zeitreihen mit sehr langen Intervallen und Verzögerungen […]
Die Informationsentropie ist eine Größe, die sich zur Messung der Informationsmenge eignet. Es wurde 1948 von Shannon vorgeschlagen. Dabei wurde das Konzept der Entropie aus der Thermodynamik übernommen und die durchschnittliche Informationsmenge nach Ausschluss von Redundanz in Informationen als Informationsentropie bezeichnet und der entsprechende mathematische Ausdruck angegeben. Die drei Eigenschaften der Informationsentropie sind Monotonie: Je höher die Wahrscheinlichkeit eines Ereignisses, desto mehr Informationen enthält es […]
Unter Wissensrepräsentation versteht man die Darstellung und Beschreibung von Wissen. Es geht darum, wie Agenten relevantes Wissen sinnvoll nutzen können. Dies ist eine Studie des Denkens als Rechenprozess. Genau genommen handelt es sich bei Wissensrepräsentation und wissensbasierter Argumentation um zwei eng miteinander verbundene Konzepte im selben Forschungsfeld. Tatsächlich wird der Begriff Wissensrepräsentation jedoch auch verwendet, um ein umfassenderes Konzept zu bezeichnen, das auch die Argumentation einschließt.
Die exponentielle Verlustfunktion ist eine häufig verwendete Verlustfunktion im AdaBoost-Algorithmus. Der Funktionsausdruck liegt in Exponentialform vor, wie im folgenden Diagramm dargestellt. Häufiger Verlustfehler Exponentialer Verlust Exponentialer Verlust: Wird hauptsächlich im Ensemble-Lernalgorithmus von Adaboost verwendet; Scharnierverlust H […]
Im Bereich des maschinellen Lernens bezieht sich Wahrheit auf den genauen Einstellwert des Trainingssatzes für das Klassifizierungsergebnis beim überwachten Lernen, der im Allgemeinen zur Fehlerschätzung und Effektbewertung verwendet wird. Beim überwachten Lernen erscheinen beschriftete Daten normalerweise in der Form (x, t), wobei x die Eingabedaten und t die Beschriftung darstellt. Die richtige Bezeichnung ist Grou […]
Unter Fehler-Divergenz-Zerlegung versteht man den Prozess der Zerlegung des integrierten Generalisierungsfehlers, der wie folgt ausgedrückt werden kann: , wobei die linke Seite E den integrierten Generalisierungsfehler darstellt und die rechte Seite $latex {\over […]
MCMC ist ein Algorithmus zur Stichprobenziehung aus Zufallsverteilungen auf der Grundlage von Markow-Ketten, der die Posterior-Verteilung des betreffenden Parameters durch Zufallsstichprobenziehung im Wahrscheinlichkeitsraum approximiert. Die grundlegende Theorie von MCMC ist der Markow-Prozess. Um in verwandten Algorithmen eine Stichprobe auf einer bestimmten Verteilung zu ziehen, können wir gemäß dem Markow-Prozess von jedem Zustand aus simulieren.
Der Evolutionsalgorithmus ist eine allgemeine Methode zur Problemlösung, die auf der natürlichen Selektion und den natürlichen genetischen Mechanismen der biologischen Welt basiert. Grundlegende Methode: Verwenden Sie einfache Codierungstechnologie, um verschiedene komplexe Strukturen darzustellen, verwenden Sie einfache genetische Operationen und die natürliche Selektion des Überlebens des Stärkeren, um das Lernen zu steuern und die Suchrichtung zu bestimmen. Nutzen Sie die Bevölkerung, um die Suche zu organisieren, sodass […]