HyperAI

Astronomie : Identifier Des Anomalies Dans 4 Millions D'images De Galaxies À L'aide De CNN Et De L'apprentissage Actif

il y a 2 ans
Information
Xuran Zhang
特色图像

Les anomalies dans les galaxies sont essentielles à notre compréhension de l’univers. Cependant, avec le développement de la technologie d’observation astronomique, les données astronomiques augmentent de façon exponentielle, dépassant les capacités analytiques des astronomes.
Bien que les bénévoles puissent participer au traitement des données astronomiques en ligne, ils ne peuvent effectuer que quelques classifications simples et peuvent manquer certaines données clés.
À cette fin, les chercheurs ont développé l’algorithme Astronomaly basé sur des réseaux neuronaux convolutifs et un apprentissage non supervisé. Récemment, des chercheurs de l'Université du Cap-Occidental ont utilisé Astronomaly pour l'analyse de données à grande échelle pour la première fois, en essayant de rechercher des anomalies dans l'univers à partir de 4 millions de photos de galaxies.

Auteur | Xuecai

Rédacteur | Trois moutons, tour de fer

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~

Les anomalies dans les galaxies sont essentielles à notre compréhension de l’univers.En analysant les images enregistrées par les télescopes d’enquête, les chercheurs peuvent identifier des anomalies dans les galaxies et tirer des conclusions sur l’origine et l’évolution de l’univers.

Cependant, ce processus est confronté à de sérieux défis.Parce que la quantité de données d’observation astronomique augmente de façon exponentielle.Prenons par exemple l’observatoire Vera Rubin, qui est sur le point d’être mis en service. Cet observatoire possède la plus grande caméra numérique au monde et devrait enregistrer 20 To de données chaque nuit, 60 Po de données en dix ans et réaliser 32 000 milliards d'observations d'environ 20 milliards de galaxies.Bien au-delà des limites de ce que les chercheurs peuvent analyser humainement.

Figure 1 : L'observatoire Vera Rubin en construction

En juillet 2007, des chercheurs ont lancé le projet Galaxy Zoo.Améliorer la classification des images d'observation astronomique en recrutant des bénévoles en ligne. Le projet a attiré environ 150 000 volontaires pour réaliser plus de 40 millions de classifications d'un million d'images de galaxies enregistrées par le Sloan Digital Sky Survey (SDSS).

Figure 2 : Page d'accueil du projet Galaxy Zoo

Mais les volontaires ne pouvaient effectuer qu’un travail de base et pouvaient facilement manquer des détails dans les images.L’apprentissage automatique excelle dans l’analyse d’images et la classification des données, et présente un grand potentiel dans l’analyse astronomique.L'apprentissage supervisé a été largement utilisé dans l'analyse des données astronomiquesCependant, ces algorithmes nécessitent beaucoup de données de formation et de prédéfinition, et sont peu performants dans la recherche d’anomalies.

À cette fin, en 2021, des chercheurs ont développé un algorithme d’apprentissage automatique non supervisé Astronomaly basé sur des réseaux de neurones convolutifs (CNN), qui a donné de bons résultats dans différentes tâches. Récemment, des chercheurs de l’Université du Cap-Occidental ont utilisé Astronomaly pour analyser environ 4 millions d’images de galaxies.Cet algorithme a été appliqué pour la première fois à l’analyse de données à grande échelle et a permis de découvrir des anomalies qui avaient été jusque-là négligées.Ce résultat a été publié sous forme de pré-impression sur arXiv.

Ce résultat a été publié sur arXiv

Lien vers l'article :

https://arxiv.org/abs/2309.08660

Procédures expérimentales

Ensemble de données : Caméra d'étude de l'énergie sombre

Les ensembles de données de cette étude sont principalement des images enregistrées dans les bandes g, r et z dans le huitième lot de données publiques (DR8) de la Dark Energy Camera for Surveys (DECaLS).

Par la suite, les images de l’ensemble de données sont filtrées. Supprimez les images masquées par des artefacts et des étoiles et excluez les images qui ne sont pas conformes aux modèles de galaxies standard.Il reste 3 884 404 images de galaxies.

Extraction de caractéristiques:CNN + PCA

Afin d'améliorer l'efficacité de calcul de l'astronomie, il est nécessaire d'extraire des caractéristiques d'images de haute dimension et de les transformer en vecteurs de faible dimension.

Cette étude utilise un CNN pré-entraîné pour extraire des caractéristiques des images. Chaque couche de CNN effectue différentes transformations sur l'image d'entrée et génère un vecteur qui peut représenter les caractéristiques de l'image.

CNN produit finalement un vecteur contenant 1 280 caractéristiques d'image. Les chercheurs ont ensuite utilisé l’analyse en composantes principales (ACP) pour réduire davantage la dimensionnalité des données. L'ACP est une méthode statistique couramment utilisée qui peut transformer un ensemble de variables corrélées en composantes principales non corrélées en fonction de la variance des données.Grâce à l'ACP, la dimension de l'image est encore réduite à 26, ce qui améliore l'efficacité du traitement d'Astronomaly.

Surveillance anormale:iForest + Apprentissage actif

Astronomaly combine les algorithmes de forêt d'isolement (iForest) et de facteur de valeur aberrante locale (LOF) pour la surveillance des anomalies.Lors des tests de données, l’algorithme LOF est difficile à appliquer aux données à grande échelle, tandis que l’algorithme iForest peut rapidement trouver des anomalies dans les images grâce aux arbres de décision. Par conséquent, l’algorithme iForest a été utilisé dans toutes les analyses ultérieures.

Par la suite, Astronomaly effectue un apprentissage actif via l'algorithme des K plus proches voisins (NS) et l'algorithme de régression directe (DR) pour mettre à jour en continu les scores d'anomalie des images de l'ensemble de données.

L'algorithme NS peut prédire les notes des utilisateurs pour toutes les images sur la base d'une petite quantité de notes annotées manuellement via un algorithme de régression de forêt aléatoire. L'algorithme DR tente directement de « simuler » les notes de l'utilisateur sur l'image.

Enfin, les résultats de notation des deux algorithmes seront comparés aux résultats des données annotées manuellement pour évaluation.

Figure 3 : Quelques images annotées

Étiquette 0 Les résultats de gauche à droite montrent des artefacts, des masques et un faible rapport signal/bruit. Étiquette 5 Les résultats de gauche à droite correspondent aux fusions de galaxies, aux lentilles gravitationnelles et aux éléments non classés.

La lentille gravitationnelle fait référence à l'effet par lequel un corps gravitationnel puissant empêche la lumière proche de se propager en ligne droite, ce qui est similaire à la réfraction de la lumière par une lentille.

Vérification comparative:Courbe de rappel + UMAP

Les chercheurs ont utilisé les algorithmes iForest, NS et DR pour prédire les données de l’ensemble de validation. L'ensemble d'évaluation contient 184 anomalies. L'algorithme iForest n'a trouvé que 15 anomalies dans les 500 images avec les scores d'anomalie les plus élevés, tandis que les algorithmes DR et NS ont trouvé 84 anomalies chacun.

Figure 4 : Résultats de prédiction de différents algorithmes

De plus, les chercheurs ont classé les résultats de prédiction des algorithmes iForest et NS en fonction des artefacts, des lentilles gravitationnelles et des fusions de galaxies, et ont découvert les raisons pour lesquelles l'algorithme iForest a eu de mauvaises performances.

Figure 5 : Classification des résultats des algorithmes iForest (ligne pointillée) et NS (ligne continue)

Comme le montre la figure, la plupart des anomalies détectées par l’algorithme iForest sont des artefacts.Bien que ces anomalies techniques soient également des anomalies, elles n’ont aucune valeur scientifique. Les résultats ci-dessus montrent queLes algorithmes NS et DR peuvent aider Astronomaly à éliminer rapidement les interférences des artefacts et à trouver des phénomènes anormaux dans l'univers.

Dans le même temps, les chercheurs ont utilisé la méthode d’approximation et de projection uniformes du collecteur (UMAP) pour classer les images dans l’ensemble de validation.

Figure 6 : Résultats UMAP de l'ensemble d'évaluation

UMAP classe les images en fonction de leurs scores d'anomalie. Une image avec un score de 1 est une image de galaxie ordinaire, c'est-à-dire une galaxie sans circonstances particulières. Il existe un grand nombre d'images ordinaires à 1 point autour de chaque type d'image, ce qui crée des obstacles à la prédiction de l'algorithme iForest.

On peut voir que les artefacts avec un score de 0 et les anomalies avec un score de 5 sont divisés en groupes serrés sur la figure, indiquant que les deux types d'images ont des caractéristiques très évidentes. Mais en même temps, la distribution des deux types d’images est très proche, ce qui peut facilement amener l’algorithme iForest à faire des erreurs de jugement.

Application à grande échelle:Annoter et explorer

Après avoir évalué les performances de différents algorithmes, les chercheurs ont appliqué l’algorithme NS à l’ensemble des données.

Comme on peut le voir sur la figure, lorsqu'aucune donnée n'est étiquetée, c'est-à-dire lorsque l'algorithme iForest n'apprend pas activement, il n'y a presque pas de courbe dans les résultats, car l'algorithme iForest ne trouve qu'une seule anomalie parmi les 2 000 données avec les scores d'anomalie les plus élevés.

Figure 7 : Résultats de prédiction de l'algorithme NS avec différents nombres d'annotations

Cependant, après avoir annoté 2 000 points de données dans l’ensemble de données, Astronomaly a pu rapidement trouver des anomalies dans les images grâce à l’apprentissage actif.Lorsque le nombre d'annotations est de 4 000, Astronomaly présente le plus grand nombre d'anomalies récemment découvertes., puis commence à diminuer, indiquant qu'aucune annotation supplémentaire n'est nécessaire à ce stade et que l'ensemble de données peut être augmenté.

Enquête de suivi:1635/2000

Après avoir analysé toutes les images de l'ensemble de données, Astronomaly a trouvé 1 635 anomalies dans les 2 000 images présentant les scores d'anomalie les plus élevés, dont 8 lentilles gravitationnelles, 18 phénomènes non classés et 1 609 fusions de galaxies.

Figure 8 : Lentille gravitationnelle découverte par Astronomaly

Figure 9 : Anomalies non classées trouvées par Astronomaly

Figure 10 : Fusion de galaxies découverte par Astronomaly

L'IA se dirige vers l'espace

À mesure que la quantité de données d’observation astronomique continue d’augmenter, le statut de l’IA, qui est bonne en analyse de données, en astronomie s’améliore progressivement.Dès 2020, des chercheurs de l'Université de Warwick au Royaume-Uni ont utilisé l'IA pour trouver 50 nouvelles planètes à partir des anciennes données de la NASA.

Dans le même temps, le radiotélescope sphérique à ouverture de cinq cents mètres (FAST), connu sous le nom de « China Sky Eye », est également confronté au problème d'un volume excessif de données.L'IA leur fournit une solution. En 2021, FAST a coopéré avec Tencent Youtu Lab pour analyser les données FAST et a rapidement trouvé 5 pulsars.

L’IA joue également son rôle dans d’autres domaines. En 2019, l'équipe du télescope Event Horizon (ETH) a publié la première photo au monde d'un trou noir. Quatre ans plus tard,Des chercheurs aux États-Unis ont utilisé l'IA pour traiter la photo et ont obtenu une photo de plus haute résolution du trou noir, « embellissant » le trou noir.

Figure 11 :La photo originale du trou noir (à gauche) et la photo traitée du trou noir (à droite)

Peut-être que comme les humains, l’IA a aussi des ambitions aussi élevées que les étoiles et la mer. Il s’est désormais aventuré dans l’univers, à la recherche d’indices sur l’évolution de l’univers dans la vaste quantité de données. Des nouvelles planètes aux nouveaux pulsars, en passant par de nouvelles anomalies cosmiques, l’IA ouvre un nouvel avenir à l’astronomie.

Liens de référence :

[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/classify

[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml

[3]https://www.thepaper.cn/newsDetail_forward_22699012

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~