HyperAI

Funktionsauswahl

Bei der Merkmalsauswahl handelt es sich um den Prozess, bei dem die konsistenteste, nicht redundanteste und relevanteste Teilmenge von Merkmalen für die Modellerstellung isoliert wird. Da die Größe und Vielfalt von Datensätzen immer weiter zunimmt, ist es wichtig, die Größe des Datensatzes methodisch zu reduzieren. Das Hauptziel der Merkmalsauswahl besteht darin, die Leistung von Vorhersagemodellen zu verbessern und den Rechenaufwand der Modellierung zu senken.

Beispielverwendung der Merkmalsauswahl

Die Merkmalsauswahl ist eine effektive Vorverarbeitungstechnik für verschiedene praktische Anwendungen, wie z. B. Textklassifizierung, Fernerkundung, Bildabruf, Mikroarray-Analyse, Massenspektrometrie, Sequenzanalyse usw.

Hier sind einige Beispiele aus der Praxis zur Merkmalsauswahl:

  1. Mammographische Bildanalyse
  2. Modellierung kriminellen Verhaltens
  3. Genomische Datenanalyse
  4. Plattformüberwachung
  5. Bewertung der mechanischen Integrität
  6. Textclustering
  7. Hyperspektrale Bildklassifizierung
  8. Sequenzanalyse

Bedeutung der Merkmalsauswahl

Während des maschinellen Lernprozesses kann die Verwendung einer Merkmalsauswahl den Prozess genauer machen. Darüber hinaus verbessert es die Vorhersagekraft des Algorithmus, indem es die wichtigsten Variablen auswählt und redundante und irrelevante Variablen eliminiert. Aus diesem Grund ist die Merkmalsauswahl wichtig.

Die drei Hauptvorteile der Merkmalsauswahl sind:

  1. Reduzieren Sie Überanpassung  
    Redundante Daten bedeuten eine geringere Wahrscheinlichkeit, Entscheidungen auf der Grundlage von Rauschen zu treffen.
  2. Verbessern Sie die Genauigkeit  
    Weniger irreführende Daten bedeuten eine höhere Modellgenauigkeit.
  3. Reduzieren Sie die Trainingszeit  
    Weniger Daten bedeuten schnellere Algorithmen.

Methoden zur Merkmalsauswahl

Algorithmen zur Merkmalsauswahl werden in überwachte und unüberwachte Algorithmen unterteilt: Überwachte Algorithmen können für beschriftete Daten verwendet werden, unüberwachte Algorithmen für unbeschriftete Daten. Unüberwachte Techniken werden als Filtermethoden, Wrapper-Methoden, Einbettungsmethoden oder Hybridmethoden klassifiziert:

  • Filtermethode: Filtermethoden wählen Features basierend auf Statistiken und nicht auf der Leistung der Merkmalsauswahl und Kreuzvalidierung aus. Wenden Sie die ausgewählte Metrik an, um irrelevante Attribute zu identifizieren und eine rekursive Merkmalsauswahl durchzuführen. Filtermethoden können univariat sein, wobei eine geordnete Rangliste von Merkmalen erstellt wird, um die endgültige Auswahl einer Merkmalsuntermenge zu treffen, oder multivariat, wobei die Relevanz des gesamten Merkmalssatzes bewertet wird und redundante und irrelevante Merkmale identifiziert werden.
  • Verpackungsmethode: Wrapper-Feature-Auswahlmethoden behandeln die Auswahl eines Feature-Sets als Suchproblem und beurteilen die Qualität der Features, indem sie Feature-Kombinationen vorbereiten, auswerten und mit anderen Feature-Kombinationen vergleichen. Diese Methode hilft, mögliche Wechselwirkungen zwischen Variablen zu erkennen. Wrapper-Methoden konzentrieren sich auf eine Teilmenge von Merkmalen, die dazu beitragen, die Ergebnisqualität des für die Auswahl verwendeten Clusteralgorithmus zu verbessern. Beliebte Beispiele sind die Boruta-Feature-Auswahl und die Forward-Feature-Auswahl.
  • Eingebettete Methode: Eingebettete Methoden zur Merkmalsauswahl integrieren maschinelle Lernalgorithmen zur Merkmalsauswahl als Teil des Lernalgorithmus, wobei Klassifizierung und Merkmalsauswahl gleichzeitig durchgeführt werden. Extrahieren Sie sorgfältig die Merkmale, die zu jeder Iteration des Modelltrainingsprozesses am meisten beitragen. Zu den gängigen Einbettungsmethoden zählen die Merkmalsauswahl im Random Forest, die Merkmalsauswahl im Decision Tree und die Merkmalsauswahl im LASSO-Format.

Verweise

【1】https://www.heavy.ai/technical-glossary/feature-selection

【2】https://h2o.ai/wiki/feature-selection/

【3】https://en.wikipedia.org/wiki/Feature_selection