천문학: CNN과 능동 학습을 사용하여 400만 개의 은하 이미지에서 이상 현상 식별

은하의 이상 현상은 우주를 이해하는 데 중요합니다. 그러나 천문 관측 기술이 발달하면서 천문 데이터는 기하급수적으로 증가하여 천문학자의 분석 능력을 뛰어넘고 있습니다.
자원봉사자들은 온라인으로 천문 데이터 처리에 참여할 수 있지만, 일부 간단한 분류만 수행할 수 있으며 일부 주요 데이터를 놓칠 수도 있습니다.
이를 위해 연구진은 합성 신경망과 비지도 학습을 기반으로 하는 천문학 알고리즘을 개발했습니다. 최근 서부 케이프 대학의 연구자들은 Astronomaly를 처음으로 대규모 데이터 분석에 사용하여 400만 개의 은하 사진에서 우주의 이상 현상을 찾으려고 시도했습니다.
저자 | 쉐차이
편집자 | 세 마리 양, 철탑
본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~
은하의 이상 현상은 우주를 이해하는 데 중요합니다.조사 망원경이 기록한 이미지를 분석함으로써 연구자들은 은하의 이상 현상을 파악하고 우주의 기원과 진화에 대한 추론을 내릴 수 있습니다.
그러나 이 과정은 심각한 어려움에 직면해 있습니다.천문 관측 데이터의 양이 기하급수적으로 증가하고 있기 때문입니다.예를 들어, 곧 활용될 예정인 베라 루빈 천문대를 살펴보겠습니다. 이 천문대는 세계 최대의 디지털 카메라를 보유하고 있으며, 매일 밤 20TB의 데이터를 기록하고, 10년 안에 60PB의 데이터를 기록하며, 약 200억 개의 은하에 대해 32조 회의 관측을 수행할 것으로 예상됩니다.연구자들이 인간적으로 분석할 수 있는 한계를 훨씬 넘어섰습니다.

그림 1: 건설 중인 베라 루빈 천문대
2007년 7월, 몇몇 연구자들은 갤럭시 동물원 프로젝트를 시작했습니다.온라인 자원봉사자 모집을 통한 천문 관측 이미지 분류 발전. 이 프로젝트는 Sloan Digital Sky Survey(SDSS)에서 기록한 100만 개의 은하 이미지에 대한 4,000만 건 이상의 분류를 수행하기 위해 약 15만 명의 자원봉사자를 모집했습니다.

그림 2: Galaxy Zoo 프로젝트 홈페이지
하지만 자원봉사자들은 기본적인 작업만 할 수 있었고 사진 속의 세부 사항을 쉽게 놓칠 수 있었습니다.머신 러닝은 이미지 분석과 데이터 분류에 탁월하며, 천문 분석에도 큰 잠재력을 가지고 있습니다.지도 학습은 천문학 데이터 분석에 널리 사용되었습니다.그러나 이러한 알고리즘은 많은 양의 학습 데이터와 사전 정의가 필요하며, 이상 징후를 찾는 데 성능이 좋지 않습니다.
이를 위해 연구진은 2021년에 합성곱 신경망(CNN)을 기반으로 한 비지도 머신 러닝 알고리즘인 Astronomaly를 개발했고, 이는 다양한 작업에서 좋은 성과를 보였습니다. 최근, 서부 케이프 대학의 연구자들은 Astronomaly를 사용하여 약 400만 개의 은하 이미지를 분석했습니다.이 알고리즘은 대규모 데이터 분석에 처음으로 적용되었으며, 이전에는 간과되었던 이상 징후를 발견했습니다.이 결과는 arXiv에 사전 인쇄본으로 게시되었습니다.

이 결과는 arXiv에 게재되었습니다.
논문 링크:
https://arxiv.org/abs/2309.08660
실험 절차
데이터 세트: 암흑 에너지 탐사 카메라
본 연구의 데이터 세트는 주로 DECaLS(Dark Energy Camera for Surveys)의 공개 데이터 8번째 배치(DR8)에서 g, r, z 대역에서 기록된 이미지입니다.
이후, 데이터 세트의 이미지가 스크리닝됩니다. 유물과 별에 의해 가려진 이미지를 제거하고, 표준 은하 모델에 맞지 않는 이미지를 제외합니다.그러면 은하계 사진은 3,884,404장이 됩니다.
특징 추출:CNN + PCA
Astronomaly의 계산 효율성을 개선하려면 고차원 이미지에서 특징을 추출하고 이를 저차원 벡터로 변환하는 것이 필요합니다.
이 연구에서는 사전 훈련된 CNN을 사용하여 이미지에서 특징을 추출합니다. CNN의 각 계층은 입력 이미지를 다르게 변환하고 이미지 특징을 표현할 수 있는 벡터를 생성합니다.
CNN은 마침내 1,280개의 이미지 특징을 담은 벡터를 출력합니다. 연구자들은 주성분 분석(PCA)을 사용하여 데이터의 차원을 더욱 줄였습니다. PCA는 데이터의 분산을 기반으로 상관관계가 있는 변수 집합을 상관관계가 없는 주성분으로 변환할 수 있는 일반적으로 사용되는 통계적 방법입니다.PCA를 통해 이미지의 차원은 26으로 더욱 줄어들었고, 이를 통해 Astronomaly의 처리 효율성이 향상되었습니다.
비정상 모니터링:iForest + 능동 학습
Astronomaly는 이상 현상 모니터링을 위해 격리 숲(iForest)과 지역 이상치 요인(LOF) 알고리즘을 결합합니다.데이터 테스트에서 LOF 알고리즘은 대규모 데이터에 적용하기 어려운 반면, iForest 알고리즘은 의사결정 트리를 통해 이미지의 이상치를 빠르게 찾을 수 있습니다. 따라서 이후의 모든 분석에는 iForest 알고리즘이 사용되었습니다.
이후, Astronomaly는 K-최근접 이웃 알고리즘(NS)과 직접 회귀 알고리즘(DR)을 통한 능동 학습을 수행하여 데이터 세트의 이미지에 대한 이상 점수를 지속적으로 업데이트합니다.
NS 알고리즘은 랜덤 포레스트 회귀 알고리즘을 통해 수동으로 주석이 달린 소량의 평가를 기반으로 모든 이미지에 대한 사용자 평가를 예측할 수 있습니다. DR 알고리즘은 사용자가 이미지에 내린 평가를 직접 "시뮬레이션"하려고 시도합니다.
마지막으로, 두 알고리즘의 채점 결과는 평가를 위해 수동으로 주석이 달린 데이터의 결과와 비교됩니다.

그림 3: 주석이 달린 이미지 중 일부
라벨 0 결과는 왼쪽부터 오른쪽까지 아티팩트, 마스크, 낮은 신호 대 잡음비를 보여줍니다. 라벨 5 왼쪽부터 오른쪽까지의 결과는 은하 합병, 중력 렌즈, 미분류에 해당합니다.
중력 렌즈 현상은 강력한 중력체로 인해 근처의 빛이 더 이상 직선으로 전파되지 않는 현상을 말하며, 이는 렌즈에 의한 빛의 굴절과 비슷합니다.
비교 검증:리콜 곡선 + UMAP
연구자들은 iForest, NS 및 DR 알고리즘을 사용하여 검증 세트의 데이터를 예측했습니다. 평가 세트에는 184개의 이상 현상이 포함되어 있습니다. iForest 알고리즘은 가장 높은 이상치 점수를 받은 500개 이미지에서 단 15개의 이상치만 발견했지만, DR 및 NS 알고리즘은 각각 84개의 이상치를 발견했습니다.

그림 4: 다양한 알고리즘의 예측 결과
또한 연구진은 인공물, 중력 렌즈, 은하 병합에 따라 iForest와 NS 알고리즘의 예측 결과를 분류하고, iForest 알고리즘의 성능이 낮은 이유를 발견했습니다.

그림 5: iForest(점선) 및 NS(실선) 알고리즘 결과 분류
그림에서 볼 수 있듯이, iForest 알고리즘을 통해 발견된 대부분의 이상 현상은 아티팩트입니다.이러한 기술적 이상 현상 역시 이상 현상이지만 과학적 가치는 없습니다. 위의 결과는 다음을 보여줍니다.NS 및 DR 알고리즘은 Astronomaly가 인공물의 간섭을 신속하게 제거하고 우주의 비정상적인 현상을 찾는 데 도움이 될 수 있습니다.
동시에 연구진은 UMAP(Uniform Manifold Approximation and Projection) 방법을 사용하여 검증 세트의 이미지를 분류했습니다.

그림 6: 평가 세트의 UMAP 결과
UMAP은 이상 점수를 기준으로 이미지를 분류합니다. 1점을 받은 이미지는 일반적인 은하 이미지, 즉 특별한 상황이 없는 은하입니다. 각 유형의 이미지 주변에는 많은 수의 1점 일반 이미지가 존재하며, 이는 iForest 알고리즘의 예측에 장애물이 됩니다.
그림에서 0점의 아티팩트와 5점의 이상치가 밀집된 클러스터로 나뉘어져 있는 것을 볼 수 있는데, 이는 두 유형의 이미지 모두 매우 명확한 특성을 가지고 있음을 나타냅니다. 하지만 동시에 두 유형의 이미지 분포가 매우 가깝기 때문에 iForest 알고리즘이 쉽게 잘못된 판단을 내릴 수 있습니다.
대규모 응용 프로그램:주석 달고 탐색하기
연구자들은 다양한 알고리즘의 성능을 평가한 후 NS 알고리즘을 전체 데이터 세트에 적용했습니다.
그림에서 볼 수 있듯이, 데이터에 레이블이 지정되지 않은 경우, 즉 iForest 알고리즘이 적극적으로 학습하지 않는 경우 결과에 곡선이 거의 나타나지 않습니다. 그 이유는 iForest 알고리즘이 가장 높은 이상치 점수를 가진 2,000개의 데이터 중에서 단 하나의 이상치만 찾기 때문입니다.

그림 7: 주석 개수에 따른 NS 알고리즘의 예측 결과
그러나 데이터 세트에서 2,000개의 데이터 포인트에 주석을 단 후, Astronomaly는 능동 학습을 통해 이미지의 이상 징후를 빠르게 찾아낼 수 있었습니다.주석의 수가 4,000개일 때, Astronomaly는 가장 많은 새로 발견된 이상 현상을 가지게 됩니다., 그리고 감소하기 시작하여 지금은 추가 주석이 필요 없고 데이터 세트를 늘릴 수 있음을 나타냅니다.
후속 조사:1635/2000
데이터 세트의 모든 이미지를 분석한 후, 천문학자들은 가장 높은 이상점 점수를 받은 2,000개 이미지에서 1,635개의 이상점을 발견했는데, 여기에는 중력렌즈 현상 8개, 분류되지 않은 현상 18개, 은하 합병 1,609개가 포함되었습니다.

그림 8: 천문학자들이 발견한 중력 렌즈

그림 9: Astronomaly에서 발견한 분류되지 않은 이상 현상

그림 10: Astronomaly가 발견한 은하 합병
우주로 향하는 AI
천문 관측 데이터의 양이 계속 늘어나면서, 데이터 분석에 능한 AI의 천문학에서의 위상도 점차 높아지고 있습니다.2020년 초, 영국 워릭 대학의 연구진은 AI를 사용하여 NASA의 기존 데이터에서 50개의 새로운 행성을 찾았습니다.
동시에, "중국 하늘의 눈"으로 알려진 500m 구경 구면 전파 망원경(FAST)도 데이터 과잉 문제에 직면해 있습니다.AI는 그들에게 솔루션을 제공합니다. 2021년 FAST는 텐센트 유투랩과 협력하여 FAST 데이터를 분석하여 5개의 펄서를 빠르게 찾아냈습니다.
AI는 다른 분야에서도 역할을 하고 있습니다. 2019년에 이벤트 호라이즌 망원경(ETH) 팀은 세계 최초로 블랙홀 사진을 공개했습니다. 4년 후,미국의 연구진은 AI를 사용하여 사진을 처리하고 블랙홀의 더 높은 해상도 사진을 얻어 블랙홀을 "아름답게" 만들었습니다.

그림 11:원본 블랙홀 사진(왼쪽)과 처리된 블랙홀 사진(오른쪽)
아마도 인간과 마찬가지로 AI도 별과 바다만큼 큰 야망을 가지고 있을 것이다. 이제 우주로 나아가, 방대한 양의 데이터에서 우주의 진화에 대한 단서를 찾고 있습니다. 새로운 행성, 새로운 펄사, 새로운 우주적 이상 현상 등 AI는 천문학의 새로운 미래를 열어가고 있습니다.
참조 링크:
[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/분류
[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml
[3]https://www.thepaper.cn/newsDetail_forward_22699012
본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~