Command Palette
Search for a command to run...
Wiki
Machine Learning Glossary: Definitionen und Erklärungen wichtiger KI- und ML-Konzepte erkunden
Modalität bezieht sich auf die spezifische Art und Weise, wie Menschen Informationen erhalten. Da Multimediadaten häufig ein Medium zur Übertragung mehrerer Arten von Informationen sind (beispielsweise überträgt ein Video oft Text-, Bild- und Hörinformationen gleichzeitig), hat sich multimodales Lernen allmählich zum wichtigsten Mittel zur Analyse und zum Verständnis von Multimediainhalten entwickelt. Multimodales Lernen umfasst im Wesentlichen Folgendes […]
Die Obergrenze des Generalisierungsfehlers bezieht sich auf den maximal zulässigen Wert des Generalisierungsfehlers. Das Überschreiten dieser Obergrenze beeinträchtigt die Durchführbarkeit des maschinellen Lernens. Der Generalisierungsfehler bezieht sich auf den Fehler, der beim Generalisieren vom Trainingssatz auf Bereiche außerhalb des Trainingssatzes entsteht. Im Allgemeinen wird der Fehler außerhalb des Trainingssatzes verwendet, d. h. der erwartete Fehler im gesamten Eingaberaum abzüglich des Trainingsfehlers. Da die Obergrenze des Fehlers weit ist […]
Multidimensionale Skalierung (MDS) ist eine Visualisierung der Abstände zwischen einer Reihe von Objekten und kann auch als unüberwachter Algorithmus zur Dimensionsreduzierung verwendet werden. Es handelt sich um eine Methode zur Dimensionsreduzierung, die die spärlichen Beispieldaten und die Schwierigkeiten bei der Entfernungsberechnung, die in hochdimensionalen Situationen auftreten, lindern kann. Es handelt sich um eine Methode zur linearen Dimensionsreduktion, die sich sowohl von der Hauptkomponentenanalyse als auch von der linearen Dimensionsreduktionsanalyse unterscheidet. […]
Bei der multiplen linearen Regression handelt es sich um eine lineare Regression, die auf mehreren Variablen durchgeführt wird. Die Methode der multiplen linearen Regression ähnelt der Methode der univariaten Regression, mit dem Unterschied, dass es mehr unabhängige Variablen und Parameter gibt. Allgemeine Funktionen der multiplen Regression Linearer Korrelationskoeffizient zwischen Variablen cor(dataframe) Streudiagrammmatrix scatterplotMatrix […]
Ockhams Rasiermesser besagt, dass, wenn es mehrere Hypothesen gibt, die mit Beobachtungen übereinstimmen, die einfachste gewählt werden sollte. Ockhams Rasiermesser wird häufig als heuristische Technik verwendet. Es handelt sich um ein Hilfsmittel zur Entwicklung theoretischer Modelle und kann nicht als Grundlage für die Beurteilung von Theorien verwendet werden.
Out-of-Bag-Schätzungen beziehen sich auf Testergebnisse, bei denen die zum Testen verwendeten Proben nicht im Trainingssatz erscheinen.
Unter Parameterschätzung versteht man die Schätzung von Bevölkerungsindikatoren anhand von Stichprobenindikatoren. Insbesondere wird der Stichprobenmittelwert verwendet, um den Populationsmittelwert zu schätzen, oder die Stichprobenrate wird verwendet, um die Populationsrate zu schätzen.
Unter Part-of-Speech-Tagging (POS-Tagging) versteht man den Prozess der Klassifizierung und Kennzeichnung von Wörtern in einem Satz. Dabei handelt es sich um den Vorgang, jedem Wort durch eine Wortartklassifizierung basierend auf den Komponenten, die es in der syntaktischen Struktur oder Sprachmorphologie trägt, ein Wortartkennzeichen zuzuweisen.
Der semi-naive Bayes-Klassifikator ist eine Klassifizierungsmethode, die die gegenseitige Abhängigkeit einiger Attribute berücksichtigt. Es handelt sich um eine Relaxationsstrategie, wenn die gegenseitige Unabhängigkeit der Merkmale des naiven Bayes-Klassifikators schwer zu erfüllen ist.
Halbüberwachtes Lernen ist eine Lerntechnik zwischen überwachtem und unüberwachtem Lernen. Zum Lernen werden sowohl beschriftete als auch unbeschriftete Proben verwendet.
Ein Sattelpunkt ist ein stationärer Punkt, der kein lokaler Extrempunkt ist.
Der Versionsraum ist eine Teilmenge aller Hypothesen beim Konzeptlernen, die mit einem bekannten Datensatz übereinstimmen, und wird häufig verwendet, um Inhalte zu konvergieren.
Bei der Wortsinn-Disambiguierung (WSD) handelt es sich um eine semantische Disambiguierung auf Wortebene.
Das Residualnetzwerk (ResNet) basiert auf einem einfachen Netzwerk, in das Abkürzungsverbindungen eingefügt werden, um das Netzwerk in die entsprechende Residualversion umzuwandeln. Das Residuennetzwerk passt nicht direkt zum Ziel, sondern zum Residuum.
Der Darstellungssatz ist ein Theorem im statistischen Lernen, das besagt, dass das Minimum einer regulierten Risikofunktion, die auf einem Hilbert-Raum mit reproduzierendem Kernel definiert ist, als lineare Kombination der Eingabepunkte im Trainingssatz dargestellt werden kann.
Die halbüberwachte Support Vector Machine (S3VM) ist eine Verallgemeinerung der Support Vector Machine im halbüberwachten Lernen.
Word Embedding ist ein allgemeiner Begriff für Sprachmodelle und Repräsentationslerntechniken in der natürlichen Sprachverarbeitung (NLP).
Bei der Wortsinn-Disambiguierung (WSD) handelt es sich um eine semantische Disambiguierung auf Wortebene. Es handelt sich um ein ungelöstes Problem in der Verarbeitung natürlicher Sprache und der Ontologie. Mehrdeutigkeit und Eindeutigkeitsbeseitigung sind die Kernprobleme beim Verstehen natürlicher Sprache. Auf den Ebenen der Wortbedeutung, der Satzbedeutung und der Absatzbedeutung kommt es zu Phänomenen, bei denen sich die Semantik der Sprache je nach Kontext unterscheidet. Unter Disambiguierung versteht man den Prozess der kontextbasierten Bestimmung der Semantik eines Objekts.
Tokenisierung, auch als lexikalische Analyse bezeichnet, ist der Prozess der Umwandlung von Zeichen (beispielsweise in einem Computerprogramm oder einer Webseite) in Token (Zeichenfolgen mit zugewiesenen und daher identifizierten Bedeutungen).
Bei der Variationsinferenz wird eine bekannte Verteilung verwendet, um sie an die von uns benötigte Verteilung anzupassen, was sich jedoch nur schwer in einer Formel ausdrücken lässt.
Ein Referenzmodell ist ein Modell, das als Maßstab und Vergleich dient. In der Definition der Organisation zur Förderung strukturierter Informationsstandards wird es verwendet, um die wichtigen Beziehungen zwischen Entitäten in einer bestimmten Umgebung zu verstehen und einen allgemeinen Standard oder Spezifikationsrahmen zur Unterstützung dieser Umgebung zu entwickeln. Konzeptzusammenfassung: Referenzmodelle werden verwendet, um Informationen über eine Umgebung bereitzustellen und zu beschreiben […]
Bei der Neugewichtungsmethode wird in jeder Runde des Trainingsprozesses jeder Trainingsstichprobe entsprechend der Stichprobenverteilung ein neues Gewicht zugewiesen.
Unter Randverteilung versteht man in der Wahrscheinlichkeitstheorie und Statistik die Wahrscheinlichkeitsverteilung nur einiger Variablen unter mehrdimensionalen Zufallsvariablen. Definitionen Angenommen, es gibt eine Wahrscheinlichkeitsverteilung, die mit zwei Variablen verknüpft ist: $latex P(x, y) $. Die Randverteilung in Bezug auf eine der Variablen ist dann die bedingte Wahrscheinlichkeitsverteilung bei Angabe der anderen Variablen: $lat […]
Marginalisierung ist eine Methode zum Entdecken einer Variable auf der Grundlage einer anderen Variable. Es ermittelt den Grenzbeitrag einer anderen Variablen durch Summierung der möglichen Werte der Variablen. Diese Definition ist relativ abstrakt und wird im Folgenden anhand relevanter Fälle erläutert. Angenommen, wir müssen den Einfluss des Wetters auf den Glücksindex kennen, können wir ihn durch P (Glück | Wetter) darstellen, d. h. bei gegebener Wetterart […]
Modalität bezieht sich auf die spezifische Art und Weise, wie Menschen Informationen erhalten. Da Multimediadaten häufig ein Medium zur Übertragung mehrerer Arten von Informationen sind (beispielsweise überträgt ein Video oft Text-, Bild- und Hörinformationen gleichzeitig), hat sich multimodales Lernen allmählich zum wichtigsten Mittel zur Analyse und zum Verständnis von Multimediainhalten entwickelt. Multimodales Lernen umfasst im Wesentlichen Folgendes […]
Die Obergrenze des Generalisierungsfehlers bezieht sich auf den maximal zulässigen Wert des Generalisierungsfehlers. Das Überschreiten dieser Obergrenze beeinträchtigt die Durchführbarkeit des maschinellen Lernens. Der Generalisierungsfehler bezieht sich auf den Fehler, der beim Generalisieren vom Trainingssatz auf Bereiche außerhalb des Trainingssatzes entsteht. Im Allgemeinen wird der Fehler außerhalb des Trainingssatzes verwendet, d. h. der erwartete Fehler im gesamten Eingaberaum abzüglich des Trainingsfehlers. Da die Obergrenze des Fehlers weit ist […]
Multidimensionale Skalierung (MDS) ist eine Visualisierung der Abstände zwischen einer Reihe von Objekten und kann auch als unüberwachter Algorithmus zur Dimensionsreduzierung verwendet werden. Es handelt sich um eine Methode zur Dimensionsreduzierung, die die spärlichen Beispieldaten und die Schwierigkeiten bei der Entfernungsberechnung, die in hochdimensionalen Situationen auftreten, lindern kann. Es handelt sich um eine Methode zur linearen Dimensionsreduktion, die sich sowohl von der Hauptkomponentenanalyse als auch von der linearen Dimensionsreduktionsanalyse unterscheidet. […]
Bei der multiplen linearen Regression handelt es sich um eine lineare Regression, die auf mehreren Variablen durchgeführt wird. Die Methode der multiplen linearen Regression ähnelt der Methode der univariaten Regression, mit dem Unterschied, dass es mehr unabhängige Variablen und Parameter gibt. Allgemeine Funktionen der multiplen Regression Linearer Korrelationskoeffizient zwischen Variablen cor(dataframe) Streudiagrammmatrix scatterplotMatrix […]
Ockhams Rasiermesser besagt, dass, wenn es mehrere Hypothesen gibt, die mit Beobachtungen übereinstimmen, die einfachste gewählt werden sollte. Ockhams Rasiermesser wird häufig als heuristische Technik verwendet. Es handelt sich um ein Hilfsmittel zur Entwicklung theoretischer Modelle und kann nicht als Grundlage für die Beurteilung von Theorien verwendet werden.
Out-of-Bag-Schätzungen beziehen sich auf Testergebnisse, bei denen die zum Testen verwendeten Proben nicht im Trainingssatz erscheinen.
Unter Parameterschätzung versteht man die Schätzung von Bevölkerungsindikatoren anhand von Stichprobenindikatoren. Insbesondere wird der Stichprobenmittelwert verwendet, um den Populationsmittelwert zu schätzen, oder die Stichprobenrate wird verwendet, um die Populationsrate zu schätzen.
Unter Part-of-Speech-Tagging (POS-Tagging) versteht man den Prozess der Klassifizierung und Kennzeichnung von Wörtern in einem Satz. Dabei handelt es sich um den Vorgang, jedem Wort durch eine Wortartklassifizierung basierend auf den Komponenten, die es in der syntaktischen Struktur oder Sprachmorphologie trägt, ein Wortartkennzeichen zuzuweisen.
Der semi-naive Bayes-Klassifikator ist eine Klassifizierungsmethode, die die gegenseitige Abhängigkeit einiger Attribute berücksichtigt. Es handelt sich um eine Relaxationsstrategie, wenn die gegenseitige Unabhängigkeit der Merkmale des naiven Bayes-Klassifikators schwer zu erfüllen ist.
Halbüberwachtes Lernen ist eine Lerntechnik zwischen überwachtem und unüberwachtem Lernen. Zum Lernen werden sowohl beschriftete als auch unbeschriftete Proben verwendet.
Ein Sattelpunkt ist ein stationärer Punkt, der kein lokaler Extrempunkt ist.
Der Versionsraum ist eine Teilmenge aller Hypothesen beim Konzeptlernen, die mit einem bekannten Datensatz übereinstimmen, und wird häufig verwendet, um Inhalte zu konvergieren.
Bei der Wortsinn-Disambiguierung (WSD) handelt es sich um eine semantische Disambiguierung auf Wortebene.
Das Residualnetzwerk (ResNet) basiert auf einem einfachen Netzwerk, in das Abkürzungsverbindungen eingefügt werden, um das Netzwerk in die entsprechende Residualversion umzuwandeln. Das Residuennetzwerk passt nicht direkt zum Ziel, sondern zum Residuum.
Der Darstellungssatz ist ein Theorem im statistischen Lernen, das besagt, dass das Minimum einer regulierten Risikofunktion, die auf einem Hilbert-Raum mit reproduzierendem Kernel definiert ist, als lineare Kombination der Eingabepunkte im Trainingssatz dargestellt werden kann.
Die halbüberwachte Support Vector Machine (S3VM) ist eine Verallgemeinerung der Support Vector Machine im halbüberwachten Lernen.
Word Embedding ist ein allgemeiner Begriff für Sprachmodelle und Repräsentationslerntechniken in der natürlichen Sprachverarbeitung (NLP).
Bei der Wortsinn-Disambiguierung (WSD) handelt es sich um eine semantische Disambiguierung auf Wortebene. Es handelt sich um ein ungelöstes Problem in der Verarbeitung natürlicher Sprache und der Ontologie. Mehrdeutigkeit und Eindeutigkeitsbeseitigung sind die Kernprobleme beim Verstehen natürlicher Sprache. Auf den Ebenen der Wortbedeutung, der Satzbedeutung und der Absatzbedeutung kommt es zu Phänomenen, bei denen sich die Semantik der Sprache je nach Kontext unterscheidet. Unter Disambiguierung versteht man den Prozess der kontextbasierten Bestimmung der Semantik eines Objekts.
Tokenisierung, auch als lexikalische Analyse bezeichnet, ist der Prozess der Umwandlung von Zeichen (beispielsweise in einem Computerprogramm oder einer Webseite) in Token (Zeichenfolgen mit zugewiesenen und daher identifizierten Bedeutungen).
Bei der Variationsinferenz wird eine bekannte Verteilung verwendet, um sie an die von uns benötigte Verteilung anzupassen, was sich jedoch nur schwer in einer Formel ausdrücken lässt.
Ein Referenzmodell ist ein Modell, das als Maßstab und Vergleich dient. In der Definition der Organisation zur Förderung strukturierter Informationsstandards wird es verwendet, um die wichtigen Beziehungen zwischen Entitäten in einer bestimmten Umgebung zu verstehen und einen allgemeinen Standard oder Spezifikationsrahmen zur Unterstützung dieser Umgebung zu entwickeln. Konzeptzusammenfassung: Referenzmodelle werden verwendet, um Informationen über eine Umgebung bereitzustellen und zu beschreiben […]
Bei der Neugewichtungsmethode wird in jeder Runde des Trainingsprozesses jeder Trainingsstichprobe entsprechend der Stichprobenverteilung ein neues Gewicht zugewiesen.
Unter Randverteilung versteht man in der Wahrscheinlichkeitstheorie und Statistik die Wahrscheinlichkeitsverteilung nur einiger Variablen unter mehrdimensionalen Zufallsvariablen. Definitionen Angenommen, es gibt eine Wahrscheinlichkeitsverteilung, die mit zwei Variablen verknüpft ist: $latex P(x, y) $. Die Randverteilung in Bezug auf eine der Variablen ist dann die bedingte Wahrscheinlichkeitsverteilung bei Angabe der anderen Variablen: $lat […]
Marginalisierung ist eine Methode zum Entdecken einer Variable auf der Grundlage einer anderen Variable. Es ermittelt den Grenzbeitrag einer anderen Variablen durch Summierung der möglichen Werte der Variablen. Diese Definition ist relativ abstrakt und wird im Folgenden anhand relevanter Fälle erläutert. Angenommen, wir müssen den Einfluss des Wetters auf den Glücksindex kennen, können wir ihn durch P (Glück | Wetter) darstellen, d. h. bei gegebener Wetterart […]