Sie Wissen Nicht, Wo Sie Mit Der Wissenschaftlichen Recherche Beginnen Sollen? 27 Machine-Learning-Fallstricke, Die Sie Vermeiden Sollten, Damit Ihr Paper Ohne Umwege Veröffentlicht Werden Kann

Dieser Artikel wurde zuerst auf dem offiziellen WeChat-Konto HyperAI veröffentlicht.
Inhalte im Überblick:Wenn Sie neu im Bereich des maschinellen Lernens sind und in Zukunft akademische Forschung auf diesem Gebiet betreiben möchten, sollten Sie sich diesen auf Sie zugeschnittenen „Leitfaden zur Vermeidung von Fallstricken“ nicht entgehen lassen.
Schlüsselwörter:Forschung zum maschinellen Lernen, Standardforschung, akademische Forschung
Wie kann ein akademischer Neuling im Bereich des maschinellen Lernens Fallstricke vermeiden und seine Arbeit problemlos veröffentlichen?
Associate Professor Michael A. Lones von der School of Mathematics and Computer Science der Heriot-Watt University in Schottland veröffentlichte 2021 eine Arbeit – „Wie man Fallstricke beim maschinellen Lernen vermeidet: Ein Leitfaden für akademische Forscher“,Dies wird ausführlich besprochen.
Lesen Sie das vollständige Dokument (V2):

In diesem Artikel geht der Autor von der Perspektive der akademischen Forschung aus, kombiniert seine eigene wissenschaftliche Forschungserfahrung und Lehrerfahrung und bezieht die vollständige Verknüpfung der Verwendung von Technologie des maschinellen Lernens mit ein.Häufig auftretend, erfordert besondere Aufmerksamkeit 5 wesentliche Probleme und entsprechende Lösungsvorschläge.
Anwendbare Personen:
Studierende oder Wissenschaftler, die relativ neu im ML-Bereich sind und nur über grundlegende ML-Kenntnisse verfügen
Freundliche Tipps:In diesem Artikel geht es um allgemeine Themen in der akademischen Gemeinschaft, beispielsweise darum, wie Modelle sorgfältig ausgewertet und verglichen werden können, damit Artikel erfolgreich veröffentlicht werden können.
Als Nächstes werden wir den vollständigen Prozess des ML-Modelltrainings verfolgen und ihn schrittweise beschreiben.
Phase 1: Vor der Modellerstellung
Viele Studierende möchten das Modell von Anfang an trainieren und evaluieren und vernachlässigen dabei häufig die wichtigeren „Hausaufgaben“.Zu diesen „Hausaufgaben“ gehören:
* Was ist das Ziel des Projekts?
* Welche Art von Daten werden benötigt, um dieses Ziel zu erreichen?
* Gibt es Einschränkungen hinsichtlich der Daten? Wenn ja, wie können sie gelöst werden?
* Wie ist der F&E-Fortschritt in diesem Bereich und was wurde getan
Wenn diese Vorarbeiten nicht gut gemacht werden und man das Modell überstürzt laufen lässt, dann ist es wahrscheinlich, dass das Modell am Ende nicht die erwarteten Schlussfolgerungen liefern kann und die wissenschaftliche Forschungsarbeit nicht veröffentlicht wird.
1.1 Daten verstehen und analysieren
Die Datenquellen sind zuverlässig, die Methoden der Datenerhebung wissenschaftlich und die Datenqualität hoch, was für die Veröffentlichung von Artikeln von großem Nutzen sein wird. Es ist wichtig, hier zu beachten, dassEin weit verbreiteter Datensatz muss nicht unbedingt von guter Qualität sein, dies kann aber auch daran liegen, dass er leicht zugänglich ist.Vor der Datenauswahl wird eine explorative Datenanalyse durchgeführt, um Datenbeschränkungen zu beseitigen.
1.2 Sehen Sie sich nicht alle Daten an, sondern trennen Sie die Testdaten, bevor Sie beginnen
Informationslecks aus dem Testsatz in den Trainingsprozess sind ein häufiger Grund dafür, dass Machine-Learning-Modelle nicht verallgemeinert werden können.Schauen Sie sich daher während der explorativen Datenanalysephase die Testdaten nicht zu genau an, um zu vermeiden, dass Sie absichtlich oder unabsichtlich nicht überprüfbare Annahmen treffen, die die Generalisierbarkeit des Modells einschränken.
Freundliche Tipps:Es ist in Ordnung, Annahmen zu treffen, aber diese Annahmen sollten nur in das Training des Modells einfließen, nicht in das Testen.
1.3 Bereiten Sie ausreichend Daten vor
Unzureichende Daten können die Generalisierbarkeit und Vielseitigkeit des Modells verringern, was vom Signal-Rausch-Verhältnis (SNR) des Datensatzes abhängt. Im Bereich der maschinellen LernforschungEin häufiges Problem ist unzureichendes Datenvolumen. In diesem Fall kann die Verfügbarkeit vorhandener Daten durch Kreuzvalidierung, Datenverbesserung und andere Techniken verbessert werden.
1.4 Holen Sie aktiv Rat von Experten auf diesem Gebiet ein
Experten auf diesem Gebiet verfügen über umfangreiche wissenschaftliche Forschungserfahrung.Es kann uns dabei helfen, die zu lösenden Probleme und die am besten geeigneten Funktionssätze und Modelle für maschinelles Lernen zu identifizieren und die Veröffentlichung unserer Forschungsergebnisse zu steuern.Es erzielt mit halbem Aufwand das doppelte Ergebnis.
1.5 Führen Sie eine gründliche Literaturrecherche durch
Der wissenschaftliche Fortschritt ist ein iterativer Prozess, bei dem jede Studie Informationen liefert, die als Orientierung für die nächste dienen.Wenn Sie frühere Recherchen ignorieren, entgehen Ihnen wahrscheinlich wertvolle Informationen.Anstatt sich beim Schreiben der Arbeit den Kopf darüber zu zerbrechen, warum man sich mit demselben Thema beschäftigt und nicht mit der Recherche auf Basis vorhandener Ergebnisse beginnt, ist es besser, vor Arbeitsbeginn eine Literaturrecherche durchzuführen.
1.6 Denken Sie im Voraus über die Modellbereitstellung nach
Wenn das ultimative Ziel der akademischen Forschung darin besteht, ein maschinelles Lernmodell zu entwickeln, das in der realen Welt eingesetzt werden kann,Sie müssen Bereitstellungsprobleme so früh wie möglich berücksichtigen.Beispielsweise die Auswirkungen von Umwelteinschränkungen auf die Modellkomplexität, ob es Zeitlimits gibt, wie die Integration in das Softwaresystem erfolgt usw.
Phase 2: Modelle zuverlässig erstellen
Es ist wichtig, Modelle auf organisierte Weise zu erstellen, damit wir die Daten richtig verwenden und wohlüberlegte Modellentscheidungen treffen können.
2.1 Testdaten können nicht im Modelltraining verwendet werden
Sobald Testdaten in die Konfiguration, das Training oder die Auswahl des Modells einbezogen werden, wirkt sich dies erheblich auf die Zuverlässigkeit und Vielseitigkeit der Daten aus. Dies ist auch ein häufiger Grund dafür, dass veröffentlichte Modelle des maschinellen Lernens oft nicht auf reale Daten anwendbar sind.
❎ Fehlerbeispiele (vermeiden Sie diese):
* Verwenden Sie während der Datenaufbereitung die Mittelwert- und Bereichsinformationen der Variablen im gesamten Datensatz für die Variablenskalierung (der richtige Ansatz besteht darin, dies nur in den Trainingsdaten zu tun).
* Führen Sie eine Merkmalsauswahl durch, bevor Sie die Daten aufteilen
* Bewerten Sie die Generalisierbarkeit mehrerer Modelle anhand derselben Testdaten
* Wenden Sie eine Datenerweiterung an, bevor Sie die Testdaten aufteilen
Um die oben genannten Probleme zu vermeiden,Am besten ist es, vor Projektbeginn eine Teilmenge der Daten aufzuteilen.Und am Ende des Projekts wird nur dieser unabhängige Testsatz verwendet, um die Generalisierbarkeit eines einzelnen Modells zu testen.
Freundliche Tipps:Zeitreihendaten sollten mit besonderer Sorgfalt behandelt werden, da zufällige Aufteilungen der Daten leicht zu Lecks und Überanpassung führen können.
2.2 Probieren Sie mehrere verschiedene Modelle aus
Es gibt weltweit kein universelles Modell für maschinelles Lernen. Unsere Forschungsarbeit besteht darin, ein für spezifische Probleme geeignetes Modell für maschinelles Lernen zu finden. Moderne Bibliotheken für maschinelles Lernen wie Python, R, Julia usw.Mit nur geringfügigen Änderungen am Code können Sie mehrere Modelle ausprobieren, um das effektivste zu finden.
Freundliche Tipps:
* Verwenden Sie keine ungeeigneten Modelle und verwenden Sie Validierungssätze anstelle von Testsätzen, um Modelle zu bewerten
* Optimieren Sie beim Vergleichen von Modellen die Hyperparameter des Modells, führen Sie mehrere Auswertungen durch und korrigieren Sie mehrere Vergleiche, wenn Sie die Ergebnisse veröffentlichen.
2.3 Verwenden Sie keine ungeeigneten Modelle
Moderne Bibliotheken für maschinelles Lernen haben die Hürde für die Implementierung maschinellen Lernens gesenkt, machen es uns aber auch leicht, ungeeignete Modelle auszuwählen, beispielsweise die Anwendung eines für kategorische Merkmale geeigneten Modells auf einen Datensatz mit numerischen Merkmalen oder die Verwendung eines Klassifizierungsmodells, wenn ein Regressionsmodell verwendet werden sollte.Versuchen Sie bei der Auswahl eines Modells, dasjenige auszuwählen, das am besten zum Anwendungsfall passt.
2.4 Deep Learning ist manchmal nicht die optimale Lösung
Obwohl tiefe neuronale Netzwerke (DNNs) bei einigen Aufgaben gute Ergebnisse liefern,Dies bedeutet jedoch nicht, dass DNN für alle Probleme geeignet ist.Insbesondere wenn die Daten begrenzt sind, das zugrunde liegende Muster recht einfach ist oder das Modell interpretierbar sein muss, ist die Leistung von DNN möglicherweise nicht so gut wie die einiger altmodischer Modelle des maschinellen Lernens, wie z. B. Random Forest und SVM.
2.5 Optimierung der Modell-Hyperparameter
Hyperparameter haben einen großen Einfluss auf die Leistung eines Modells und müssen häufig auf den jeweiligen Datensatz zugeschnitten werden. Zielloses Testen ist möglicherweise nicht der beste Weg, um die richtigen Hyperparameter zu finden.Es wird empfohlen, Hyperparameter-Optimierungsstrategien wie Zufallssuche und Rastersuche zu verwenden.
Freundliche Tipps:Für Modelle mit einer großen Anzahl von Hyperparametern oder hohen Trainingskosten sind diese Strategien nicht anwendbar. Technologien wie AutoML und Data-Mining-Pipelines können verwendet werden, um die Auswahl von Modellen und deren Hyperparametern zu optimieren.
2.6 Seien Sie besonders vorsichtig bei der Optimierung von Hyperparametern und der Auswahl von Features
Hyperparameteroptimierung und Merkmalsauswahl sind Teil des Modelltrainings. Führen Sie vor Beginn des Modelltrainings keine Merkmalsauswahl für den gesamten Datensatz durch, da dies dazu führen kann, dass Informationen aus dem Testsatz in den Trainingsprozess gelangen. Optimieren Sie die Hyperparameter oder Features des Modells.Am besten verwenden Sie genau dieselben Daten, die Sie zum Trainieren des Modells verwendet haben. Eine gängige Technik ist die verschachtelte Kreuzvalidierung (auch doppelte Kreuzvalidierung genannt).
Phase 3: Das Modell gründlich bewerten
Unangemessene Modellbewertungen kommen häufig vor und behindern den Fortschritt der akademischen Forschung. daher,Es muss sorgfältig darüber nachgedacht werden, wie die Daten in Experimenten verwendet werden, wie die tatsächliche Leistung des Modells gemessen und wie sie berichtet wird.
3.1 Verwenden Sie eine geeignete Testsuite
Verwenden Sie einen Testsatz, um die Generalisierbarkeit Ihres maschinellen Lernmodells zu messen und sicherzustellen, dass die Daten im Testsatz geeignet sind.Der Testsatz sollte sich nicht mit dem Trainingssatz überschneiden und muss einen größeren Bereich von Bedingungen abdecken. Wenn beispielsweise bei einem fotografischen Datensatz eines Objekts sowohl der Trainingssatz als auch der Testsatz an einem sonnigen Tag im Freien erfasst werden, ist der Testsatz nicht unabhängig, da er keinen größeren Bereich von Wetterbedingungen erfasst.
3.2 Führen Sie keine Datenerweiterung durch, bevor Sie die Daten teilen
Die Datenerweiterung hilft dabei, den Datensatz auszugleichen und die Allgemeingültigkeit und Robustheit von Modellen des maschinellen Lernens zu verbessern.Es ist zu beachten, dass die Datenerweiterung nur auf den Trainingssatz und nicht auf den Testsatz angewendet werden sollte, um eine Überanpassung zu vermeiden.
3.3 Verwenden eines Validierungssatzes
Zur Messung der Modellleistung wird ein separater Validierungssatz verwendet, der einen Satz von Beispielen enthält, die nicht direkt für das Training verwendet werden, sondern als Leitfaden für das Training dienen. Ein weiterer Vorteil des Validierungssatzes besteht darin, dass er ein frühzeitiges Stoppen ermöglicht.
3.4 Bewerten Sie das Modell mehrmals
Eine einzelne Bewertung eines Modells ist nicht zuverlässig.kann die tatsächliche Leistung des Modells unter- oder überschätzen,Dazu muss das Modell mehrmals evaluiert werden, was normalerweise ein mehrmaliges Trainieren des Modells mit unterschiedlichen Teilmengen der Trainingsdaten beinhaltet. Eine besonders beliebte Methode ist die Kreuzvalidierung mit vielen Varianten, beispielsweise der zehnfachen Kreuzvalidierung.
Freundliche Tipps:Es wird empfohlen, bei der Angabe der Mittelwerte und Standardabweichungen mehrerer Bewertungen einen einzigen Wert für spätere Modellvergleiche mithilfe statistischer Tests aufzubewahren.
3.5 Reservieren Sie einige Daten, um die endgültige Modellinstanz auszuwerten
Der beste Weg, die Generalisierbarkeit von Modellinstanzen zuverlässig zu beurteilen,Vielleicht einfach ein anderes Testset verwenden.Wenn die Datenmenge groß genug ist, ist es daher besser, einen Teil davon zu reservieren und ihn für eine unvoreingenommene Auswertung der endgültig ausgewählten Modellinstanz zu verwenden.
3.6 Verwenden Sie die Genauigkeit nicht für unausgeglichene Datensätze
Seien Sie bei der Auswahl von Metriken zur Bewertung von Modellen des maschinellen Lernens vorsichtig. Beispielsweise ist die am häufigsten verwendete Metrik für Klassifizierungsmodelle die Genauigkeit, die gut funktioniert, wenn der Datensatz ausgewogen ist (jede Kategorie hat eine ähnliche Anzahl repräsentativer Stichproben im Datensatz). Allerdings kann die Genauigkeit ein sehr irreführendes Maß sein, wenn der Datensatz unausgewogen ist.
in diesem Fall,Es ist besser, Indikatoren zu verwenden, die unempfindlich gegenüber Ungleichgewichten bei der Klassengröße sind, wie etwa der F1-Score, der Cohen-Kappa-Koeffizient (κ) oder der Matthews-Korrelationskoeffizient (MCC).
Phase 4: Modelle fair vergleichen
Der Vergleich von Modellen ist für die akademische Forschung von grundlegender Bedeutung. Werden die Vergleiche jedoch auf unfaire Weise durchgeführt und veröffentlicht, führen sie andere Forscher in die Irre. Also,Sie müssen sicherstellen, dass Sie verschiedene Modelle unter denselben Bedingungen bewerten und statistische Tests angemessen verwenden.
4.1 Bei Modellen gilt: Je höher die Zahl, desto besser die Leistung.
In der Arbeit erscheint häufig folgende Aussage: „Die Genauigkeit der vorherigen Studie betrug 94%, und die Genauigkeit dieses Modells ist so hoch wie 95%, also ist es besser.“ Verschiedene Gründe sprechen dafür,Eine höhere Zahl bedeutet nicht automatisch ein besseres Modell,Wenn die Modelle auf unterschiedlichen Partitionen desselben Datensatzes trainiert oder ausgewertet werden, kann der Leistungsunterschied gering sein. Wenn völlig unterschiedliche Datensätze verwendet werden, kann der Leistungsunterschied enorm sein. Auch wenn nicht im gleichen Umfang Hyperparameteroptimierungen durchgeführt werden, kann dies zu Unterschieden in der Modellleistung beitragen.
Um die Leistung der beiden Modelle wissenschaftlich zu vergleichen,Modelle sollten im gleichen Maße optimiert und mehrfach evaluiert werden. Dabei sollten statistische Tests verwendet werden, um festzustellen, ob die Leistungsunterschiede signifikant sind.
4.2 Vergleich von Modellen mittels statistischer Tests
Es wird empfohlen, statistische Tests zu verwenden, um die Leistungsunterschiede zwischen zwei Modellen zu vergleichen. Im Großen und Ganzen lassen sich Tests zum Vergleich von Machine-Learning-Modellen in zwei Kategorien einteilen:Die erste Kategorie wird zum Vergleich ähnlicher Modellinstanzen verwendet.Beispielsweise kann beim Vergleich zweier trainierter Entscheidungsbäume der McNemar-Test verwendet werden.Die zweite Kategorie eignet sich für allgemeinere Modellvergleiche.Wenn beispielsweise verglichen werden soll, welcher Entscheidungsbaum oder welches neuronale Netzwerk besser geeignet ist, wird der Mann-Whitney-U-Test verwendet.
4.3 Korrektur für Mehrfachvergleiche
Der Vergleich von mehr als zwei Modellen mithilfe statistischer Tests ist etwas kompliziert. Mehrere paarweise Tests ähneln der mehrmaligen Verwendung des Testsatzes, was zu allzu optimistischen Interpretationen der Signifikanz führen kann.
Um dieses Problem zu beheben, wird empfohlen, eine Mehrfachtestkorrektur wie die Bonferroni-Korrektur zu verwenden.
4.4 Vertrauen Sie Community-Benchmarks nicht zu sehr
Bei Problemen in bestimmten Bereichen wählen viele Leute Benchmark-Datensätze, um die Leistung neuer Modelle des maschinellen Lernens zu bewerten, da jeder dieselben Daten zum Trainieren und Testen der Modelle verwendet, sodass der Vergleich intuitiver ist. Dieser Ansatz hat einige große Nachteile.
Erstens: Wenn der Zugriff auf das Testset unbegrenzt ist, gibt es keine Garantie dafür, dass andere es nicht als Teil ihres Trainingsprozesses verwendet haben, was zu einem übertriebenen Optimismus hinsichtlich der Ergebnisse führen könnte. Selbst wenn jede Person, die die Daten verwendet, den Testsatz nur einmal verwendet hat, wurde der Testsatz insgesamt viele Male von der Community verwendet, was ebenfalls zu einer Überanpassung des Modells führen kann.Zu diesem Zweck sollten die Ergebnisse der Benchmark-Datensätze mit Vorsicht interpretiert und die Leistungsverbesserungen angemessen beurteilt werden.
Phase 5: Ergebnisberichterstattung
Akademische Forschung muss zum Wissen beitragen.Hierzu ist eine Berichterstattung über den Gesamtstatus der Forschungsarbeiten erforderlich, einschließlich der Berichterstattung darüber, welche Bemühungen erfolgreich waren und welche nicht.Maschinelles Lernen ist oft mit Kompromissen verbunden und es kommt selten vor, dass ein Modell in allen Aspekten besser ist als ein anderes. Dies muss sich bei der Berichterstattung der Ergebnisse widerspiegeln.
5.1 Die Berichterstattung muss transparent sein
Teilen Sie alle Forschungsarbeiten transparent.Dies erleichtert anderen die Wiederholung des Experiments und den Vergleich der Modelle. Eine klare Dokumentation Ihrer Experimente und das Schreiben sauberen Codes kommen Ihnen und anderen zugute. Die Community für maschinelles Lernen legt zunehmend Wert auf die Reproduzierbarkeit von Experimenten, und eine unzureichende Dokumentation von Arbeitsabläufen kann sich auf nachfolgende Veröffentlichungen auswirken.
5.2 Leistungsberichterstattung auf verschiedene Arten
Bei der Bewertung der ModellleistungEin strengerer Ansatz besteht darin, mehrere Datensätze zu verwenden.Dies kann dazu beitragen, etwaige Mängel eines einzelnen Datensatzes zu beheben und ein umfassendes Bild der Leistung des Modells zu erhalten. Es empfiehlt sich, für jeden Datensatz mehrere Metriken zu melden, da unterschiedliche Metriken unterschiedliche Ergebnisse zeigen und die Transparenz Ihrer Arbeit erhöhen können.
5.3 Nur die Daten zusammenfassen
Präsentieren Sie keine ungültigen Schlussfolgerungen, die andere Forscher in die Irre führen könnten. Ein häufiger Fehler besteht darin, Verallgemeinerungen zu veröffentlichen, die nicht durch die zum Trainieren und Bewerten des Modells verwendeten Daten gestützt werden. Nur weil ein Modell bei einem Datensatz gut funktioniert, bedeutet das nicht unbedingt, dass es auch bei anderen Datensätzen gut funktioniert. Zwar lassen sich durch die Verwendung mehrerer Datensätze zuverlässige Erkenntnisse gewinnen, doch sind dem, was aus Experimenten untersucht und gefolgert werden kann, immer Grenzen gesetzt.Übertreiben Sie die Ergebnisse nicht und seien Sie sich der Einschränkungen bewusst.
5.4 Signifikante Unterschiede mit Vorsicht melden
Die oben besprochenen statistischen Tests können dabei helfen, Unterschiede zwischen Modellen festzustellen. Statistische Tests sind jedoch nicht perfekt und können die Signifikanz des Modells unter- oder überschätzen, was zu falsch positiven oder falsch negativen Ergebnissen führt. Darüber hinaus plädieren immer mehr Statistiker dafür, auf die Verwendung von Konfidenzschwellenwerten zu verzichten und stattdessen p-Werte direkt anzugeben, um die Modellsignifikanz zu bestimmen.
Neben der statistischen Signifikanz muss auch die Frage berücksichtigt werden, ob der Unterschied zwischen den beiden Modellen tatsächlich von Bedeutung ist. Denn bei ausreichender Stichprobe lassen sich immer signifikante Unterschiede feststellen, auch wenn der tatsächliche Leistungsunterschied minimal ist. Daher können wir bei der Beurteilung der Wichtigkeit die Effektgröße messen. Zu den Methoden gehören Cohens d-Statistik (häufiger), Kolmogorov-Smirnov (bessere Wirkung, empfohlen) usw.
5.5 Fokus auf das Funktionsprinzip des Modells
Das trainierte Modell enthält viele gültige Informationen.Viele Autoren berichten jedoch nur über die Leistungsindikatoren des Modells, ohne die Modellprinzipien zu erläutern.Der Zweck der Forschung besteht nicht darin, eine etwas höhere Genauigkeit als andere zu erreichen, sondern Wissen zusammenzufassen und mit der Forschungsgemeinschaft zu teilen und dadurch die Möglichkeit der Veröffentlichung von Arbeitsergebnissen zu erhöhen. Stellen Sie beispielsweise für einfache Modelle wie Entscheidungsbäume eine Modellvisualisierung bereit. Erwägen Sie bei komplexen Modellen wie tiefen neuronalen Netzwerken den Einsatz der XAI-Technologie (erklärbare künstliche Intelligenz), um relevante Informationen zu extrahieren.
Das Obige ist der vollständige Inhalt des „Vermeidungsleitfadens“. Ich hoffe, dass jeder Student, der neu im Bereich maschinelles Lernen ist, daraus etwas lernt.Sie alle können dieses Schatzbuch aufbewahren, es oft lesen und Neues lernen, sodass Sie Ihre Forschungsrichtung leicht finden, ein gutes Thema auswählen und Ihre Arbeit so schnell wie möglich veröffentlichen können!
Ich freue mich auf Ihre guten Nachrichten ~
Referenzlinks:[Wie man Fallstricke beim maschinellen Lernen vermeidet: Ein Leitfaden für akademische Forscher]
-- über--