Wiki
Wir haben Hunderte von verwandten Einträgen zusammengestellt, um Ihnen zu helfen, "künstliche Intelligenz" zu verstehen
Definition: Tiefe neuronale Netzwerke haben in vielen Bereichen wie Spracherkennung, Bildverarbeitung und Verarbeitung natürlicher Sprache hervorragende Ergebnisse gezeigt. LSTM kann als Variante von RNN im Vergleich zu RNN langfristige Abhängigkeiten in Daten lernen. Im Jahr 2005 schlug Graves vor, LSTM mit […] zu kombinieren.
Das Bias-Varianz-Dilemma bedeutet, dass es unmöglich ist, Bias und Varianz gleichzeitig zu reduzieren, und dass man nur ein Gleichgewicht zwischen beiden erreichen kann. Wenn Sie im Modell die Abweichung verringern möchten, erhöhen Sie die Komplexität des Modells, um eine Unteranpassung zu verhindern. Gleichzeitig dürfen Sie das Modell jedoch nicht zu komplex gestalten, da dies die Varianz erhöhen und zu einer Überanpassung führen würde. Daher müssen wir ein Gleichgewicht in der Komplexität des Modells finden.
„Bias-Varianz-Zerlegung“ ist ein Tool, das die Generalisierungsleistung von Lernalgorithmen aus der Perspektive von Bias und Varianz erklärt. Die spezifische Definition lautet wie folgt: Angenommen, es gibt K Datensätze, von denen jeder unabhängig aus einer Verteilung p(t,x) extrahiert wird (t stellt die vorherzusagende Variable dar und x stellt die Merkmalsvariable dar). In verschiedenen […]
Definition: Der Unterschied zwischen der erwarteten Ausgabe und der wahren Bezeichnung wird als Bias bezeichnet. Die folgende Abbildung kann den Zusammenhang zwischen Bias und Varianz gut veranschaulichen:
Die Streumatrix zwischen den Klassen wird verwendet, um die Streuung jedes Stichprobenpunkts um den Mittelwert darzustellen. Mathematische Definition
Definition: Das Bayes-Netzwerk ist eines der effektivsten theoretischen Modelle im Bereich des Ausdrucks und der Schlussfolgerung unsicheren Wissens. Ein Bayes-Netzwerk besteht aus Knoten, die Variablen darstellen, und gerichteten Kanten, die diese Knoten verbinden. Knoten stellen Zufallsvariablen dar. Die gerichteten Kanten zwischen Knoten stellen die Beziehungen zwischen Knoten dar. Die Stärke der Beziehung wird mithilfe der bedingten Wahrscheinlichkeit ausgedrückt. Es gibt keinen übergeordneten Knoten […]
Grundlegende Konzepte Die Bayes'sche Entscheidungstheorie ist eine grundlegende Methode zur Entscheidungsfindung mit statistischen Modellen. Die Grundidee ist: Der Ausdruck des Parameters „bedingte Wahrscheinlichkeitsdichte“ und die Vorwahrscheinlichkeit einer bekannten Klasse werden mithilfe der Bayes-Formel in eine Nachwahrscheinlichkeit umgewandelt. Die Entscheidungsklassifizierung erfolgt auf Grundlage der Größe der Posterior-Wahrscheinlichkeit. Zugehörige Formel: Seien D1, D2, ..., Dn Proben […]
Um das Gesamtrisiko zu minimieren, wird die Klassenbezeichnung ausgewählt, die das Risiko R(c|x) für die Stichprobe minimieren kann, d. h. h∗ ist der optimale Bayes-Klassifikator.
Bei der Modellauswahl wählt man typischerweise aus einer Reihe von Kandidatenmodellen das „beste“ Modell aus und verwendet dann dieses ausgewählte „beste“ Modell zur Vorhersage. Im Gegensatz zu einem einzelnen optimalen Modell weist die Bayes'sche Modellmittelung jedem Modell Gewichte zu und führt eine gewichtete Mittelwertbildung durch, um den endgültigen Vorhersagewert zu bestimmen. Darunter ist das einem Modell zugewiesene Gewicht […]
Wenn h für jede Stichprobe x das bedingte Risiko R(h(x)|x) minimieren kann, wird auch das Gesamtrisiko minimiert. Dies führt zur Bayes-Entscheidungsregel: Um das Gesamtrisiko zu minimieren, müssen wir nur diejenige auswählen, die das bedingte Risiko R(c|x […]) erfüllt.
BN ist eine Reihe von Regularisierungsmethoden, die das Training großer Faltungsnetzwerke beschleunigen und die Klassifizierungsgenauigkeit nach der Konvergenz verbessern können. Wenn BN in einer bestimmten Schicht eines neuronalen Netzwerks verwendet wird, standardisiert es die internen Daten jedes Mini-Batches, normalisiert die Ausgabe auf die Normalverteilung von N(0,1) und reduziert […]
Beim Ensemble-Lernen sind die von der Gruppe generierten „individuellen Lernenden“ homogen. Solche Lerner werden als Basislerner bezeichnet, und die entsprechenden Lernalgorithmen heißen Basislernalgorithmen.
Long Short-Term Memory (LSTM) ist ein zeitrekursives neuronales Netzwerk (RNN), das erstmals 1997 veröffentlicht wurde. Aufgrund seiner einzigartigen Designstruktur eignet sich LSTM für die Verarbeitung und Vorhersage wichtiger Ereignisse in Zeitreihen mit sehr langen Intervallen und Verzögerungen […]
Die Informationsentropie ist eine Größe, die sich zur Messung der Informationsmenge eignet. Es wurde 1948 von Shannon vorgeschlagen. Dabei wurde das Konzept der Entropie aus der Thermodynamik übernommen und die durchschnittliche Informationsmenge nach Ausschluss von Redundanz in Informationen als Informationsentropie bezeichnet und der entsprechende mathematische Ausdruck angegeben. Die drei Eigenschaften der Informationsentropie sind Monotonie: Je höher die Wahrscheinlichkeit eines Ereignisses, desto mehr Informationen enthält es […]
Unter Wissensrepräsentation versteht man die Darstellung und Beschreibung von Wissen. Es geht darum, wie Agenten relevantes Wissen sinnvoll nutzen können. Dies ist eine Studie des Denkens als Rechenprozess. Genau genommen handelt es sich bei Wissensrepräsentation und wissensbasierter Argumentation um zwei eng miteinander verbundene Konzepte im selben Forschungsfeld. Tatsächlich wird der Begriff Wissensrepräsentation jedoch auch verwendet, um ein umfassenderes Konzept zu bezeichnen, das auch die Argumentation einschließt.
Die exponentielle Verlustfunktion ist eine häufig verwendete Verlustfunktion im AdaBoost-Algorithmus. Der Funktionsausdruck liegt in Exponentialform vor, wie im folgenden Diagramm dargestellt. Häufiger Verlustfehler Exponentialer Verlust Exponentialer Verlust: Wird hauptsächlich im Ensemble-Lernalgorithmus von Adaboost verwendet; Scharnierverlust H […]
Im Bereich des maschinellen Lernens bezieht sich Wahrheit auf den genauen Einstellwert des Trainingssatzes für das Klassifizierungsergebnis beim überwachten Lernen, der im Allgemeinen zur Fehlerschätzung und Effektbewertung verwendet wird. Beim überwachten Lernen erscheinen beschriftete Daten normalerweise in der Form (x, t), wobei x die Eingabedaten und t die Beschriftung darstellt. Die richtige Bezeichnung ist Grou […]
Unter Fehler-Divergenz-Zerlegung versteht man den Prozess der Zerlegung des integrierten Generalisierungsfehlers, der wie folgt ausgedrückt werden kann: , wobei die linke Seite E den integrierten Generalisierungsfehler darstellt und die rechte Seite $latex {\over […]
MCMC ist ein Algorithmus zur Stichprobenziehung aus Zufallsverteilungen auf der Grundlage von Markow-Ketten, der die Posterior-Verteilung des betreffenden Parameters durch Zufallsstichprobenziehung im Wahrscheinlichkeitsraum approximiert. Die grundlegende Theorie von MCMC ist der Markow-Prozess. Um in verwandten Algorithmen eine Stichprobe auf einer bestimmten Verteilung zu ziehen, können wir gemäß dem Markow-Prozess von jedem Zustand aus simulieren.
Der Evolutionsalgorithmus ist eine allgemeine Methode zur Problemlösung, die auf der natürlichen Selektion und den natürlichen genetischen Mechanismen der biologischen Welt basiert. Grundlegende Methode: Verwenden Sie einfache Codierungstechnologie, um verschiedene komplexe Strukturen darzustellen, verwenden Sie einfache genetische Operationen und die natürliche Selektion des Überlebens des Stärkeren, um das Lernen zu steuern und die Suchrichtung zu bestimmen. Nutzen Sie die Bevölkerung, um die Suche zu organisieren, sodass […]
Der genetische Algorithmus (GA) ist ein Suchalgorithmus, der in der Computermathematik zur Lösung von Optimierungsproblemen verwendet wird. Es handelt sich um eine Art Evolutionsalgorithmus, der ursprünglich einige Phänomene der Evolutionsbiologie aufgegriffen hat, darunter Vererbung, Mutation, natürliche Selektion und Hybridisierung. Genetische Algorithmen werden üblicherweise in Form einer Computersimulation implementiert. Für ein Optimierungsproblem gibt es […]
Mit der Gewinnrate ist üblicherweise die Informationsgewinnrate gemeint, die das Verhältnis der Knoteninformationen zum Knotenaufteilungsinformationsmaß darstellt. Die Gewinnrate wird normalerweise als eine der Methoden zur Attributauswahl verwendet. Die anderen beiden gängigen Methoden sind Informationsgewinn und Gini-Index. Die Formel für das Verstärkungsverhältnis lautet wie folgt: $latex {GainRatio{ \left( {R} […]
Der Hilbertraum ist ein vollständiger innerer Produktraum, der als vollständiger Vektorraum mit innerem Produkt verstanden werden kann. Der Albert-Raum basiert auf dem endlichdimensionalen euklidischen Raum und kann als Verallgemeinerung des letzteren angesehen werden. Es ist nicht auf reelle Zahlen und endliche Dimensionen beschränkt, aber es ist nicht vollständig. Wie der euklidische Raum ist der Hilbert-Raum ein Innenproduktraum und hat Abstände und Winkel […]
Das Hidden-Markov-Modell (HMM) ist ein probabilistisches Modell von Zeitreihen, das den Prozess der Generierung einer beobachtbaren zufälligen Zustandsfolge aus jedem Zustand durch eine Hidden-Markov-Kette beschreibt. Hidden-Markov-Modelle sind statistische Modelle, die zur Beschreibung eines Markov-Modells mit verborgenen unbekannten Parametern verwendet werden.