HyperAI

Astronomie: Identifizierung Von Anomalien in 4 Millionen Galaxienbildern Mithilfe Von CNNs Und Aktivem Lernen

vor 2 Jahren
Information
Xuran Zhang
特色图像

Anomalien in Galaxien sind der Schlüssel zu unserem Verständnis des Universums. Mit der Entwicklung der astronomischen Beobachtungstechnologie nehmen die astronomischen Daten jedoch exponentiell zu und übersteigen die analytischen Fähigkeiten der Astronomen.
Obwohl Freiwillige online an der Verarbeitung astronomischer Daten teilnehmen können, können sie nur einige einfache Klassifizierungen durchführen und möglicherweise einige wichtige Daten übersehen.
Zu diesem Zweck entwickelten die Forscher den Astronomaly-Algorithmus auf Basis von Convolutional Neural Networks und unüberwachtem Lernen. Kürzlich nutzten Forscher der University of the Western Cape erstmals Astronomaly für eine groß angelegte Datenanalyse und versuchten, anhand von 4 Millionen Galaxienfotos nach Anomalien im Universum zu suchen.

Autor | Xuecai

Herausgeber | Drei Schafe, Eisenturm

Dieser Artikel wurde zuerst auf der öffentlichen HyperAI WeChat-Plattform veröffentlicht~

Anomalien in Galaxien sind der Schlüssel zu unserem Verständnis des Universums.Durch die Analyse von Bildern, die von Survey Telescopes aufgezeichnet wurden, können Forscher Anomalien in Galaxien identifizieren und Rückschlüsse auf den Ursprung und die Entwicklung des Universums ziehen.

Dieser Prozess ist jedoch mit erheblichen Herausforderungen verbunden.Denn die Menge astronomischer Beobachtungsdaten wächst exponentiell.Nehmen wir zum Beispiel das Vera Rubin Observatorium, das kurz vor seiner Inbetriebnahme steht. Dieses Observatorium verfügt über die größte Digitalkamera der Welt und soll jede Nacht 20 TB Daten aufzeichnen, 60 PB Daten in zehn Jahren, und 32 Billionen Beobachtungen von etwa 20 Milliarden Galaxien durchführen.Weit über die Grenzen dessen hinaus, was Forscher als Menschen analysieren können.

Abbildung 1: Das Vera Rubin Observatorium im Bau

Im Juli 2007 starteten einige Forscher das Galaxy Zoo-Projekt.Verbesserung der Klassifizierung astronomischer Beobachtungsbilder durch Online-Rekrutierung von Freiwilligen. An dem Projekt waren rund 150.000 Freiwillige beteiligt, die über 40 Millionen Klassifizierungen von 1 Million Galaxienbildern vornahmen, die vom Sloan Digital Sky Survey (SDSS) aufgezeichnet wurden.

Abbildung 2: Homepage des Galaxy Zoo-Projekts

Allerdings konnten die Freiwilligen nur grundlegende Arbeiten durchführen und es konnte leicht passieren, dass sie Einzelheiten in den Bildern übersehen.Maschinelles Lernen eignet sich hervorragend für die Bildanalyse und Datenklassifizierung und bietet großes Potenzial für die astronomische Analyse.Überwachtes Lernen wird häufig in der astronomischen Datenanalyse eingesetztDiese Algorithmen erfordern jedoch viele Trainingsdaten und Vordefinitionen und sind bei der Erkennung von Anomalien unzureichend.

Zu diesem Zweck entwickelten Forscher im Jahr 2021 einen unüberwachten maschinellen Lernalgorithmus namens Astronomaly auf Basis von Convolutional Neural Networks (CNN), der bei verschiedenen Aufgaben gute Ergebnisse erzielte. Vor Kurzem haben Forscher der University of the Western Cape mithilfe von Astronomaly etwa 4 Millionen Galaxienbilder analysiert.Dieser Algorithmus wurde erstmals bei der Analyse großer Datenmengen eingesetzt und deckte Anomalien auf, die zuvor übersehen worden waren.Dieses Ergebnis wurde als Vorabdruck auf arXiv veröffentlicht.

Dieses Ergebnis wurde auf arXiv veröffentlicht

Link zum Artikel:

https://arxiv.org/abs/2309.08660

Experimentelle Verfahren

Datensatz: Dark Energy Survey Camera

Bei den Datensätzen dieser Studie handelt es sich hauptsächlich um Bilder, die in den Bändern g, r und z im achten Stapel öffentlicher Daten (DR8) der Dark Energy Camera for Surveys (DECaLS) aufgezeichnet wurden.

Anschließend werden die Bilder im Datensatz gesichtet. Entfernen Sie durch Artefakte und Sterne verdeckte Bilder und schließen Sie Bilder aus, die nicht den Standard-Galaxienmodellen entsprechen.Bleiben 3.884.404 Galaxienbilder.

Merkmalsextraktion:CNN + PCA

Um die Rechenleistung der Astronomy zu verbessern, ist es notwendig, Merkmale aus hochdimensionalen Bildern zu extrahieren und sie in niedrigdimensionale Vektoren umzuwandeln.

Diese Studie verwendet vortrainiertes CNN, um Merkmale aus Bildern zu extrahieren. Jede CNN-Schicht führt unterschiedliche Transformationen am Eingabebild durch und generiert einen Vektor, der die Bildmerkmale darstellen kann.

Das CNN gibt schließlich einen Vektor mit 1.280 Bildmerkmalen aus. Anschließend verwendeten die Forscher eine Hauptkomponentenanalyse (PCA), um die Datendimensionalität weiter zu reduzieren. PCA ist eine häufig verwendete statistische Methode, mit der eine Reihe korrelierter Variablen basierend auf der Varianz der Daten in unkorrelierte Hauptkomponenten umgewandelt werden kann.Durch PCA wird die Dimension des Bildes weiter auf 26 reduziert, was die Verarbeitungseffizienz von Astronomaly verbessert.

Abnormale Überwachung:iForest + Aktives Lernen

Astronomaly kombiniert die Algorithmen Isolation Forest (iForest) und Local Outlier Factor (LOF) zur Anomalieüberwachung.Beim Testen von Daten ist der LOF-Algorithmus auf große Datenmengen nur schwer anwendbar, während der iForest-Algorithmus mithilfe von Entscheidungsbäumen schnell Anomalien in Bildern finden kann. Daher wurde in allen nachfolgenden Analysen der iForest-Algorithmus verwendet.

Anschließend führt Astronomaly aktives Lernen mithilfe des K-Nearest-Neighbor-Algorithmus (NS) und des direkten Regressionsalgorithmus (DR) durch, um die Anomaliewerte der Bilder im Datensatz kontinuierlich zu aktualisieren.

Der NS-Algorithmus kann die Benutzerbewertungen für alle Bilder anhand einer kleinen Anzahl manuell annotierter Bewertungen durch einen Random-Forest-Regressionsalgorithmus vorhersagen. Der DR-Algorithmus versucht direkt, die Bewertungen des Bildes durch den Benutzer zu „simulieren“.

Abschließend werden die Scoring-Ergebnisse der beiden Algorithmen mit den Ergebnissen manuell annotierter Daten zur Auswertung verglichen.

Abbildung 3: Einige der kommentierten Bilder

Beschriftung 0 Die Ergebnisse von links nach rechts zeigen Artefakte, Masken und ein niedriges Signal-Rausch-Verhältnis. Beschriftung 5: Die Ergebnisse von links nach rechts entsprechen Galaxienverschmelzungen, Gravitationslinsen und nicht klassifizierten Ereignissen.

Als Gravitationslinseneffekt bezeichnet man den Effekt, bei dem ein starker Gravitationskörper dazu führt, dass sich Licht in der Nähe nicht mehr geradlinig ausbreitet. Dies ähnelt der Lichtbrechung durch eine Linse.

Vergleichende Überprüfung:Rückrufkurve + UMAP

Die Forscher verwendeten iForest-, NS- und DR-Algorithmen, um die Daten im Validierungssatz vorherzusagen. Der Auswertungssatz enthält 184 Anomalien. Der iForest-Algorithmus fand in den 500 Bildern mit den höchsten Anomaliewerten nur 15 Anomalien, während die DR- und NS-Algorithmen jeweils 84 Anomalien fanden.

Abbildung 4: Vorhersageergebnisse verschiedener Algorithmen

Darüber hinaus klassifizierten die Forscher die Vorhersageergebnisse der iForest- und NS-Algorithmen nach Artefakten, Gravitationslinsen und Galaxienverschmelzungen und fanden die Gründe für die schlechte Leistung des iForest-Algorithmus heraus.

Abbildung 5: Klassifizierung der Ergebnisse der Algorithmen iForest (gestrichelte Linie) und NS (durchgezogene Linie)

Wie in der Abbildung gezeigt, handelt es sich bei den meisten vom iForest-Algorithmus gefundenen Anomalien um Artefakte.Obwohl diese technischen Anomalien ebenfalls Anomalien sind, haben sie keinen wissenschaftlichen Wert. Die obigen Ergebnisse zeigen, dassNS- und DR-Algorithmen können der Astronomy dabei helfen, Störungen durch Artefakte schnell zu beseitigen und abnormale Phänomene im Universum zu finden.

Gleichzeitig verwendeten die Forscher die Uniform Manifold Approximation and Projection (UMAP)-Methode, um die Bilder im Validierungssatz zu klassifizieren.

Abbildung 6: UMAP-Ergebnisse des Evaluierungssatzes

UMAP klassifiziert Bilder anhand ihrer Anomaliewerte. Ein Bild mit der Punktzahl 1 ist ein gewöhnliches Galaxienbild, also eine Galaxie ohne besondere Umstände. Um jeden Bildtyp herum gibt es eine große Anzahl gewöhnlicher 1-Punkt-Bilder, was Hindernisse für die Vorhersage des iForest-Algorithmus schafft.

Es ist ersichtlich, dass die Artefakte mit einer Punktzahl von 0 und die Anomalien mit einer Punktzahl von 5 in der Abbildung in enge Cluster aufgeteilt sind, was darauf hinweist, dass beide Bildtypen sehr offensichtliche Merkmale aufweisen. Gleichzeitig ist die Verteilung der beiden Bildtypen jedoch sehr ähnlich, was leicht zu Fehleinschätzungen des iForest-Algorithmus führen kann.

Großflächige Anwendung:Kommentieren und erkunden

Nachdem die Forscher die Leistung verschiedener Algorithmen ausgewertet hatten, wendeten sie den NS-Algorithmus auf den gesamten Datensatz an.

Wie in der Abbildung zu sehen ist, gibt es in den Ergebnissen fast keine Kurve, wenn keine Daten beschriftet sind, d. h. wenn der iForest-Algorithmus nicht aktiv lernt, weil der iForest-Algorithmus nur eine Anomalie unter den 2.000 Daten mit den höchsten Anomaliewerten findet.

Abbildung 7: Vorhersageergebnisse des NS-Algorithmus mit unterschiedlicher Anzahl von Annotationen

Nach der Annotation von 2.000 Datenpunkten im Datensatz konnte Astronomaly jedoch durch aktives Lernen schnell Anomalien in den Bildern finden.Bei einer Anzahl von Anmerkungen von 4.000 weist Astronomaly die meisten neu entdeckten Anomalien auf.und beginnt dann abzunehmen, was darauf hinweist, dass zu diesem Zeitpunkt keine zusätzliche Anmerkung erforderlich ist und der Datensatz erweitert werden kann.

Nachuntersuchung:1635/2000

Nach der Analyse aller Bilder im Datensatz, Astronomaly fand in den 2.000 Bildern mit den höchsten Anomaliewerten 1.635 Anomalien, darunter 8 Gravitationslinsen, 18 nicht klassifizierte Phänomene und 1.609 Galaxienverschmelzungen.

Abbildung 8: Von Astronomaly entdeckte Gravitationslinse

Abbildung 9: Von Astronomaly gefundene, nicht klassifizierte Anomalien

Abbildung 10: Von Astronomaly entdeckte Galaxienverschmelzung

KI auf dem Weg ins All

Da die Menge astronomischer Beobachtungsdaten weiter zunimmt, verbessert sich der Status der KI, die gute Datenanalysefähigkeiten besitzt, in der Astronomie allmählich.Bereits 2020 nutzten Forscher der britischen University of Warwick KI, um in den alten Daten der NASA 50 neue Planeten zu finden.

Gleichzeitig ist auch das Five-hundred-meter Aperture Spherical Radio Telescope (FAST), bekannt als „China Sky Eye“, mit dem Problem zu vieler Daten konfrontiert.KI bietet ihnen eine Lösung. Im Jahr 2021 arbeitete FAST mit Tencent Youtu Lab zusammen, um FAST-Daten zu analysieren und fand schnell 5 Pulsare.

Auch in anderen Bereichen spielt KI eine Rolle. Im Jahr 2019 veröffentlichte das Team des Event Horizon Telescope (ETH) das weltweit erste Foto eines Schwarzen Lochs. Vier Jahre späterForscher in den USA nutzten KI zur Verarbeitung des Fotos und erhielten ein Foto des Schwarzen Lochs mit höherer Auflösung, wodurch das Schwarze Loch „verschönert“ wurde.

Abbildung 11:Das Originalfoto des Schwarzen Lochs (links) und das bearbeitete Foto des Schwarzen Lochs (rechts)

Vielleicht hat auch die KI, genau wie der Mensch, Ambitionen, die bis zu den Sternen und dem Meer reichen. Nun ist es ins Universum vorgedrungen und sucht in der riesigen Datenmenge nach Hinweisen auf die Entwicklung des Universums. Von neuen Planeten über neue Pulsare bis hin zu neuen kosmischen Anomalien eröffnet KI der Astronomie eine neue Zukunft.

Referenzlinks:

[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/classify

[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml

[3]https://www.thepaper.cn/newsDetail_forward_22699012

Dieser Artikel wurde zuerst auf der öffentlichen HyperAI WeChat-Plattform veröffentlicht~