Command Palette
Search for a command to run...
유럽우주국(ESA)은 허블 우주 망원경에서 얻은 1억 개의 데이터 포인트를 3일 만에 분석한 후, 1,000개 이상의 이상 천체를 발견하는 'AnomalyMatch' 프로젝트를 제안했습니다.

현재 대규모, 다중 대역, 넓은 시야각, 높은 심도의 천체 관측 조사는 천문학을 전례 없는 데이터 집약적 시대로 이끌고 있습니다. 유클리드 우주 망원경, 루빈 천문대, 로만 우주 망원경과 같은 차세대 관측 시설의 가동으로 우주는 전례 없는 규모와 정밀도로 체계적으로 지도화되고 있습니다. 이러한 관측을 통해 수십억 개의 천체 이미지와 분광 데이터가 생성될 것으로 예상되며, 이는 이러한 관측의 핵심 과학적 잠재력 중 하나입니다.즉, 특별한 천체물리학적 가치를 지닌 희귀한 천체들을 체계적으로 발견하고 식별하는 것입니다.예로는 강력한 중력 렌즈 현상, 은하 병합, 해파리 은하, 가장자리 방향성을 가진 원시 행성 원반 등이 있습니다.
흔히 "천체물리학적 이상 현상"이라고 불리는 이러한 희귀한 천체들은 은하 진화 모델, 중력 이론, 그리고 우주론적 매개변수를 검증하는 데 중요한 역할을 합니다. 하지만 이러한 천체들의 발견은 오랫동안 연구자들의 우연한 시각적 발견이나 시민 과학 프로젝트의 수동적인 조사에 크게 의존해 왔습니다.이러한 방법들은 매우 주관적이고 비효율적일 뿐만 아니라, 앞으로 등장할 엄청난 규모의 데이터에 적용하기에도 어렵습니다.
동시에,기존의 지도 학습 방식은 희귀 천체에 대한 레이블링된 샘플 수가 극히 제한적이고 데이터 범주 간의 불균형이 심각하기 때문에 근본적인 문제에 직면합니다.이러한 병목 현상을 해결하기 위해 연구는 점차 비지도 학습 또는 약지도 학습 기반의 이상 탐지 프레임워크로 전환되고 있습니다. 이러한 방법들은 특정 목표 범주를 미리 정의하지 않고, 알고리즘을 통해 데이터의 전반적인 구조나 분포를 학습하여 "정상" 그룹에서 크게 벗어나는 "이상치"를 자동으로 식별합니다. 예를 들어, 아이솔레이션 포레스트(Isolation Forests)나 로컬 이상 요인(Local Anomaly Factors)과 같은 알고리즘 기반 도구 또는 자기지도 학습을 통해 표현 공간을 구축하고 유사성 검색을 수행하는 기법들은 대규모 천체 관측 데이터에서 강력한 중력 렌즈 현상을 선별하는 등의 작업에서 효과를 입증했습니다.
하지만 순수하게 비지도 학습 방식만 사용하는 경우 천체물리학적 관심사와는 무관한 수많은 "잡음" 이상치를 생성할 수 있습니다. 이러한 단점을 보완하기 위해,유럽 우주국(ESA) 산하 유럽 우주천문센터(ESAC)의 연구팀이 AnomalyMatch라는 새로운 방법을 제안하고 적용했습니다.희귀 천체 탐지 문제는 극도로 불균형한 준지도 이진 분류 문제로 정의되며, 능동 학습 루프가 깊이 통합되어 있습니다. 이 문제는 10개 미만의 매우 적은 수의 레이블이 지정된 이상 샘플만으로도 시작할 수 있습니다. 동시에, 의사 레이블 및 일관성 정규화와 같은 준지도 학습 기법을 사용하여 방대한 양의 레이블이 지정되지 않은 데이터의 가치를 최대한 활용합니다. 또한, 전 과정에 걸쳐 전문가 검증 메커니즘을 도입하여 레이블이 지정되지 않은 데이터와 전문가 지식을 최대한 활용함으로써 탐지 성능을 점진적으로 향상시킵니다.
"AnomalyMatch를 사용하여 허블 레거시 아카이브의 9960만 개 소스 이미지에서 천체물리학적 이상 현상 식별"이라는 제목의 관련 연구 결과가 천문학 및 천체물리학(Astronomy & Astrophysics)에 게재되었습니다.
연구 하이라이트:
* AnomalyMatch는 허블 헤리티지 아카이브 전체(약 1억 개의 이미지 슬라이스)에서 이상 천체를 체계적으로 선별하는 최초의 작업에 사용되었습니다.
* 해당 시스템은 새롭게 발견된 천체물리학적 이상 현상 목록을 공개하여 희귀 현상의 표본 라이브러리를 크게 확장했습니다. 여기에는 417개의 새로운 은하 병합, 138개의 중력 렌즈 후보, 18개의 해파리 은하, 그리고 2개의 충돌 고리 은하가 포함됩니다.
* 이 방법은 처리 효율성과 정확도가 매우 뛰어나다는 것이 성공적으로 검증되었으며, 전체 데이터 분석이 단 2~3일 만에 완료되었습니다. 이는 유클리드 망원경 및 기타 출처에서 얻을 수 있는 미래의 초대형 천체 관측 데이터 처리에 있어 이 방법이 혁신적인 잠재력을 지니고 있음을 보여줍니다.

서류 주소:https://doi.org/10.1051/0004-6361/202555512
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "희귀 천체"라고 답글을 달면 전체 PDF 파일을 받으실 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
약 1억 개의 허블 소스 컷 맵으로 구성된 표준화된 데이터 세트를 기반으로 구축되었습니다.
본 연구에 사용된 데이터 세트는 O'Ryan et al.이 생성한 소스 컷아웃에서 유래되었습니다. 이 연구는 원래 허블 레거시 아카이브에서 상호 작용 및 병합하는 은하를 체계적으로 탐색하는 것을 목표로 했으며, 아카이브 내의 거의 모든 확장 소스를 처리하여 궁극적으로 대규모의 표준화된 이미지 세트를 구축했습니다. 데이터의 일관성과 활용성을 보장하기 위해,연구진은 허블 우주 망원경의 첨단 관측 카메라(Advanced Camera for Surveys) 광역 채널이 F814W 필터를 사용하여 촬영한 레벨 3 보정 모자이크 이미지만을 선택했습니다.이는 과학적 분석에 직접 사용할 수 있도록 처리된 데이터를 의미합니다.
이 선별 과정을 통해 Whitmore 등이 SourceExtractor 소프트웨어를 사용하여 발표한 허블 소스 카탈로그의 확장 소스를 포함하는 약 1만 건의 관측 결과를 얻었습니다.결과적으로 약 9960만 개의 단일 출처 이미지로 구성된 이미지 라이브러리가 생성되었습니다.각 슬라이스는 150×150 픽셀로 고정되어 있으며, 이는 약 7.5 arc초 정사각형의 천체 영역에 해당합니다. 이 슬라이스들은 Astropy의 선형 스트레칭 및 ZScaleInterval 메서드를 사용하여 향상되었으며, 회색조 JPEG 형식으로 저장되었습니다. 허블 소스 카탈로그 자체에는 중복 제거를 위한 MatchID가 포함되어 있지만, Orion et al.은 상호 작용하는 시스템이나 다핵 병합 은하의 구조적 정보를 보존하기 위해 분류 후에만 중복 제거를 수행하기로 했습니다. 연구진은 동일한 소스에서 나온 서로 다른 슬라이스가 훈련 세트에 포함되지 않도록 하기 위해 동일한 전략을 따랐습니다.
또한, 안드로메다 은하, 마젤란 성운 또는 구상 성단과 같은 특정 밀집 성단에 대한 심층 관측에서 소프트웨어에 의해 밀집된 점 광원이 하나의 "확장된 광원"으로 병합되어 특수한 유형의 이미지 왜곡 현상이 발생할 수 있습니다.연구원들은 후속 능동 학습을 통해 이러한 사례들을 식별하고, 주석 기반 모델을 사용하여 이를 낮은 점수를 받은 이상 객체로 분류했습니다.데이터 접근 효율성을 높이기 위해 약 9,960만 개의 슬라이스 모두 약 1,000개의 HDF5 파일에 걸쳐 블록 단위로 저장됩니다.
연구진은 훈련 데이터 세트를 구축할 때 초기에는 가장자리가 정렬된 원시 행성계 원반을 목표로 삼았습니다. 따라서 아래 그림에서 볼 수 있듯이 초기 훈련 데이터에는 이러한 이상 샘플 3개와 레이블이 지정된 정상 샘플 128개, 그리고 레이블이 지정되지 않은 다수의 이미지가 포함되었습니다. 정상 샘플은 전체 데이터베이스에서 무작위 샘플링과 수동 선별을 통해 얻었으며, 고립된 은하, 성단, 일반적인 아티팩트 등을 포함했습니다.

하지만 능동적 학습이 도입되면서,모델이 제시한 신뢰도 높은 후보 천체들은 특별한 모양과 연구 가치를 지닌 다른 천체들로 빠르게 확장되었다.이를 사용하여 연구원들은 점차 더 일반화된 훈련 세트를 구축하고 확장했으며, 최종적으로 1,400개의 레이블이 지정된 이미지가 포함되었는데, 그중 375개는 이상 이미지였고 1,025개는 정상 이미지였습니다. 이상 샘플에는 주로 병합 은하(178)와 중력 렌즈 시스템(63)이 포함되었습니다.

훈련 데이터 세트의 다양성과 규모가 증가했음에도 불구하고, 연구진은 F814W 데이터에서 새로운 가장자리 정렬 원시 행성계 원반을 발견하지 못했습니다. 이는 주로 두 가지 이유 때문입니다. 첫째, 이러한 천체는 해당 관측 대역에서 극히 드물기 때문입니다. 둘째, 다른 유형의 이상 현상이 점차 훈련 데이터 세트에 포함됨에 따라, 알려진 몇 안 되는 원시 행성계 원반 샘플들이 훈련 데이터의 일부가 되어 "알 수 없는" 이상으로 간주되어 재탐지될 확률이 줄어들었기 때문입니다. 이러한 과정은 또한 특정 목표 탐색 도구에서 일반적인 이상 현상 탐지 프레임워크로 발전해 온 이 방법의 실제 진화 과정을 반영합니다.
AnomalyMatch: 준지도 학습과 능동 학습을 결합한 대화형의 효율적인 이상 탐지 프레임워크.
AnomalyMatch는 대규모 천문 데이터 세트에서 희귀한 천체를 탐지하는 문제를 해결하기 위해 연구자들이 개발한 머신 러닝 프레임워크입니다. 이 방법의 핵심 혁신은 다음과 같습니다…이 논문은 이상 탐지를 극도로 불균형한 이진 분류 문제로 명시적으로 정의하고, 준지도 학습과 능동 학습 루프를 창의적으로 결합합니다.이를 통해 알려진 이상 샘플의 극히 일부만을 활용하여 방대한 양의 레이블이 지정되지 않은 데이터에서 잠재적인 희귀 표적을 효율적으로 발견할 수 있습니다.
아래 그림에서 보는 바와 같이, 이 모델의 설계는 FixMatch와 같은 고급 준지도 학습 패러다임을 기반으로 합니다. 이 모델의 핵심 구성 요소는 사용자 데이터셋의 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 EfficientNet 아키텍처를 학습함으로써 계산 효율성과 특징 추출 능력의 균형을 맞추는 것입니다.전체 프레임워크는 두 가지 협력 학습 구성 요소로 이루어져 있으며, 지도 학습 부분은 동적 가중치 전략과 결합된 포컬 손실 함수를 사용합니다.드문 이상치 범주에 대해 지능형 오버샘플링을 구현하여 극심한 클래스 불균형으로 인한 훈련 편향을 효과적으로 완화합니다.비지도 학습 부분은 약하게 보정된 이미지를 통해 신뢰도가 높은 의사 레이블을 생성합니다.또한, 강력하게 향상된 버전에는 일관성 정규화 제약 조건이 적용되어 모델이 표면 아티팩트에 의존하는 대신 데이터에서 견고한 형태학적 표현을 학습하도록 강제합니다.

학습 메커니즘 측면에서, 이 모델은 단계적 최적화 전략을 채택합니다.초기 단계에서는 소수의 레이블이 지정된 샘플을 사용하여 지도 학습을 통한 워밍업을 진행하고, 그 후 레이블이 지정되지 않은 데이터와 해당 의사 레이블을 점진적으로 도입하여 준지도 학습을 수행합니다.각 학습 라운드가 끝날 때마다 모델은 레이블이 지정되지 않은 전체 데이터 세트를 추론하고 각 샘플에 대한 "이상 점수"를 출력합니다. 이 점수는 모델이 이상 범주를 예측한 신뢰도를 기반으로 하며, 보정 전략을 통해 순위 신뢰도가 향상됩니다.
무엇보다 중요한 것은 AnomalyMatch가 상호작용적인 능동 학습 워크플로우를 완벽하게 통합한다는 점입니다. 이 워크플로우는 천문 이미지 검토에 특화된 웹 인터페이스를 통해 모델 예측 점수가 가장 높은 후보 샘플들을 전문가에게 제시합니다. 전문가들은 샘플을 신속하게 분류, 레이블 지정 또는 제거할 수 있으며, 검증 결과는 실시간으로 학습 루프에 반영됩니다. 새롭게 확인된 샘플은 레이블 세트를 확장할 뿐만 아니라, 해당 샘플의 주석 정보는 클래스 가중치와 의사 레이블 임계값을 동적으로 조정하는 데 사용되어 "모델 추천 - 전문가 확인 - 모델 반복"이라는 자체 강화 순환 구조를 형성합니다.
약 1억 개의 원본 이미지를 포함하는 허블 헤리티지 아카이브의 경우, 이 모델은 전체 데이터 추론을 단 2.5일 만에 완료하며, 중단점 재개 및 점진적 업데이트를 지원합니다.실제 응용 분야에서 이 프레임워크는 병합 은하, 중력 렌즈 현상, 해파리 은하와 같은 희귀한 천체를 다수 성공적으로 발견했을 뿐만 아니라, 기존 문헌에 기록되지 않은 여러 독특한 시스템도 식별했습니다. 높은 효율성과 강력한 일반화 능력은 이러한 하이브리드 지능형 프레임워크가 차세대 초거대 규모 천체 관측 데이터 처리에서 핵심적인 역할을 한다는 것을 충분히 입증합니다.
허블 헤리티지 아카이브에서 1,339개의 특이한 천체가 발견되었습니다.
모델 학습을 완료한 후, 연구팀은 이를 허블 헤리티지 아카이브 전체 데이터 세트에 적용하여 비정상적인 천체를 체계적으로 탐색하고 분류했습니다.
먼저 연구진은 모델 출력에서 이상치 점수가 가장 높은 5,000개의 후보 샘플을 엄격하게 중복 제거했습니다. 구체적으로, 샘플의 소스 ID를 허블 소스 카탈로그와 대조하여 좌표를 추출한 다음, 10 arc초 반경의 방사형 매칭을 수행했습니다. 이처럼 작은 각도 거리 내에서 두 개의 독립적인 이상 천체가 동시에 나타날 확률은 극히 낮기 때문에, 이 방법은 데이터 분할로 인한 중복 이미지 영역을 효과적으로 제거합니다. 이 단계를 거친 후의 결과는 아래 그림과 같습니다.연구진은 1,339개의 고유한 이상치 후보를 얻었는데, 이는 원래 데이터 세트에 존재하는 높은 반복률 문제를 직관적으로 반영합니다.

이후, 해당 분야 전문가들은 형태학적 분석과 SIMBAD 및 ESASky와 같은 데이터베이스의 문헌 검색을 바탕으로 1,339개의 고유 샘플 각각을 세밀하게 세분화했습니다. 분류 결과는 다음과 같습니다...병합 또는 상호 작용하는 은하는 가장 빈번하게 발견되는 범주로, 총 629개의 독립적인 시스템이 있으며, 이는 전체 TP3T 중 약 501개를 차지합니다.
이는 부분적으로 이러한 천체들이 비교적 흔한 변칙형 천체이기 때문이며, 또 부분적으로는 강한 조석 상호작용으로 인해 모델로 쉽게 포착할 수 있는 매우 독특한 형태를 가지기 때문입니다. 연구자들이 관측 범위를 제한적으로 사용하기 때문에, 일부 고도의 교란을 일으키는 후기 병합 시스템은 이미지에서 단일 천체로 나타날 수 있으며, 이러한 시스템의 병합 특성은 관측 범위를 조정하거나 관련 문헌을 참조하여 추가적으로 확인해야 한다는 점에 유의해야 합니다.

중력 렌즈 현상 및 관련 현상은 이상 현상 발견의 두 번째 주요 범주를 구성합니다. 연구진은 이미 알려진 여러 중력 렌즈 시스템과 다수의 새로운 잠재적 후보를 포함하여 상당수의 강력한 중력 렌즈 후보를 식별했습니다. 또한, 전경 은하단에서 생성되는 것으로 추정되는 39개의 중력 아크를 구분했는데, 이 아크의 규모는 종종 하나의 물결표(~) 크기를 넘어서며 데이터에서는 거대한 빛의 아크의 일부로만 나타납니다. 이 모델은 또한 높은 적색편이를 가진 은하 집단을 성공적으로 탐지했는데, 이 은하들은 이미지에서 낮은 신호 대 잡음비, 밀집된 형태, 그리고 약간 불규칙한 얼룩으로 나타나며, 이는 이러한 천체의 관측적 특성과 일치합니다.
다른 범주에서는 연구진이 엄격한 기준(모두 은하단에 위치하고 선두 가장자리에 활 모양 충격파와 벗겨진 흔적을 보이는)을 충족하는 해파리 모양 은하 35개, 덩어리 은하 11개, 그리고 비슷한 수의 겹치는 은하를 발견했습니다. 특히, 이 모델은 특별한 훈련 없이도 형태학적 특징을 인식하는 데 있어 놀라운 일반화 능력을 보여주었습니다."아인슈타인 십자"와 같은 구조를 특징으로 하는 여러 개의 퀘이사 렌즈와 광학 대역에서는 매우 드문 13개의 상대론적 제트 숙주 은하가 성공적으로 발견되었습니다.이는 AnomalyMatch가 학습된 지식을 전이하여 훈련 세트에 나타나지 않은 이상 유형을 감지할 수 있음을 보여줍니다.
위에서 언급한 명확하게 분류된 구성원 외에도 최종 목록에는 세 가지 일반 범주가 포함됩니다. "특수 은하"는 기존 하위 범주에 속하지 않는 매우 불규칙한 모양의 천체를 나타냅니다. "일반 은하"는 모델의 판단이 잘못된 오분류(약 10%)를 나타내며, 주로 구조적 교란이 미미한 고립 은하, 밀집된 별 영역 또는 기기 오류로 인한 은하를 포함합니다. "미지의 은하"는 현재 지식으로는 분류할 수 없는 43개의 특이한 대상을 포함하며, 향후 연구를 위한 여지를 남겨둡니다.


인공지능이 현대 천문학을 재편하고 있다
차세대 대규모 천체 관측 조사로 인해 발생하는 데이터 쓰나미에 직면하여, 전 세계 천문학 연구는 심오한 패러다임 전환을 겪고 있습니다.
학계에서는 기계가 천문 데이터의 복잡한 시간적 및 상태적 변화를 더욱 지능적으로 이해할 수 있도록 하는 방법에 대한 연구에 집중하고 있습니다. 예를 들어, 토론토 대학교, 임페리얼 칼리지 런던, 하버드-스미스소니언 천체물리학 센터의 연구팀은 연속 공간 은닉 마르코프 모델을 기반으로 천체 소스의 다양한 물리적 상태를 자동으로 식별하고 구분하는 새로운 방법을 개발했습니다.
간단히 말하면, 이 방법은 별의 활동을 숨겨져 있고 지속적으로 변화하는 일련의 상태로 모델링합니다.나 망원경으로 포착한 다중 대역 광도 변화 곡선을 분석함으로써, 천체의 물리적 상태를 매 순간 지능적으로 추론할 수 있다.연구팀은 이 알고리즘을 EV Lac이라는 활발한 플레어 별에 적용했습니다. 인공지능은 X선 데이터를 통해 "정상" 상태와 "플레어" 상태 등 다양한 상태를 성공적으로 구분하고 폭발 현상의 특성을 정확하게 정량화했습니다.
논문 제목:
은닉 마르코프 모델을 이용한 천체 소스의 상태 분리: EV Lac의 플레어 발생 및 정지 현상 사례 연구
논문 링크:https://doi.org/10.1093/mnras/stae2082
동시에, 기업들은 이러한 천문학 데이터 혁명에 전례 없는 방식으로 참여하고 있으며, 더 이상 단순히 기술 제공자에 머무르지 않고 과학 임무의 설계자, 건설자, 운영자로서 활동하고 있습니다. 대표적인 예로 유럽의 선도적인 우주 기술 기업인 오픈 코스모스(Open Cosmos)를 들 수 있습니다. 이 회사는 2024년에 카탈루냐 우주 연구소와 파트너십을 맺었습니다...이 회사는 천체물리학 연구 전용 위성 플랫폼인 "PhotSat"을 공식적으로 설계 및 제작했습니다.이 작지만 강력한 큐브샛은 두 개의 망원경을 탑재하고 가시광선 및 자외선 영역에서 이틀에 한 번씩 하늘 전체를 스캔하여 수천만 개의 가장 밝은 별들의 변화를 지속적으로 관측할 계획입니다. 과학적 목표는 매우 명확합니다. 외계 행성 탐색, 항성 특성 규명, 초신성 폭발 포착과 같은 핵심 연구에 귀중한 데이터를 제공하는 것입니다.
대학 연구실에서 개발된 은닉 마르코프 모델(HDM)처럼 데이터의 심층적인 상태를 파악하는 기술이든, 특정 과학적 목표 달성을 위해 상업 우주 기업이 제작한 천체물리학 위성이든, 그 핵심 원동력은 기하급수적으로 증가하는 데이터 규모와 복잡성에 대응하는 것입니다. 루빈 천문대나 로만 우주 망원경과 같은 차세대 시설들이 가동됨에 따라, "지능형 알고리즘 + 혁신적인 플랫폼"이라는 이중 엔진 모델이 더욱 보편화될 것으로 예상되며, 이는 천문학을 가설 중심에서 데이터와 알고리즘 모두에 기반한 새로운 시대로 이끌어 광활한 우주에서 희귀하고 귀중한 우주적 신비를 더욱 효율적으로 발견할 수 있도록 할 것입니다.








