30명의 학자들이 공동으로 Nature 리뷰를 발표하여 10년을 검토하고 AI가 과학 연구 패러다임을 어떻게 재편했는지 분석했습니다.

과학적 발견은 가설 수립, 실험 설계, 데이터 수집 및 분석 등 여러 단계가 상호 연관된 복잡한 과정입니다. 최근 몇 년 동안 AI와 기초 과학 연구의 통합이 점점 더 심화되고 있습니다. AI의 도움으로 과학자들은 과학 연구의 진전을 가속화하고 과학 연구 결과의 구현을 촉진할 수 있었습니다.
권위 있는 학술지 '네이처'는 스탠포드 대학 컴퓨터 과학 및 유전자 기술 학부의 박사후 연구원인 한첸 왕, 조지아 공과대학 컴퓨터 과학 및 공학과의 티안판 푸, 코넬 대학 컴퓨터 과학과의 위안치 두 등 30명이 작성한 논문을 게재했습니다.이 논문은 지난 10년간 기초 과학 연구에서 AI의 역할을 검토하고 남아 있는 과제와 단점을 지적합니다.
본 논문은 논문을 요약한 것입니다.
전체 논문을 읽어보세요:https://www.nature.com/articles/s41586-023-06221-2

AI와 기초과학 연구의 통합 사례 연구 이미지 출처: HyperAI가 중국어로 번역한 원문
01 AI 지원 과학 연구 데이터 수집 및 구성
실험 플랫폼에서 수집한 데이터의 규모와 복잡성이 계속 증가함에 따라, 고속으로 생성된 데이터를 선택적으로 저장하고 분석하려면 실시간 처리와 고성능 컴퓨팅(HPC)이 필요합니다.
데이터 선택
입자 충돌 실험을 예로 들면, 초당 100TB 이상의 데이터가 생성되는데, 이는 기존 데이터 전송 및 저장 기술에 엄청난 과제를 안겨줍니다. 이러한 물리 실험에서는 99.99%를 초과하는 메타데이터는 실시간으로 감지해야 하며 관련 없는 데이터는 삭제해야 합니다.딥러닝 및 자동 인코더와 같은 기술은 유사한 과학 연구에서 비정상적인 사건을 식별하고 데이터 전송 및 처리의 부담을 크게 줄이는 데 도움이 될 수 있습니다.
현재 이러한 기술은 물리학, 신경과학, 지구과학, 해양학, 천문학 등의 분야에서 널리 활용되고 있습니다.
데이터 주석
가상 라벨링과 라벨 전파 알고리즘은 지루한 데이터 라벨링을 대체하는 데 매우 중요합니다. 이를 통해 모델은 정확하게 레이블이 지정된 소량의 데이터만으로 방대한 데이터에 자동으로 레이블을 지정할 수 있습니다.
데이터 생성
자동 데이터 증강 및 심층 생성 모델을 통해 추가적인 합성 데이터 포인트를 생성하여 훈련 데이터를 확장할 수 있습니다.실험 결과, 생성적 적대 신경망(GAN)이 다양한 분야에서 사실적인 이미지를 합성할 수 있음이 드러났습니다.여기에는 입자 충돌 사건, 병리학적 단면, 흉부 X선, 자기공명조영술, 3차원(3D) 재료 미세구조, 단백질 기능에서 유전자 서열까지 다양합니다.
데이터 최적화
AI는 이미지 해상도를 크게 개선하고, 노이즈를 줄이고, 원형도를 측정할 때 발생하는 오류를 없앨 수 있어 사이트 전체에서 높은 정확도 일관성을 유지할 수 있습니다.응용 사례로는 블랙홀과 같은 시공간 영역을 시각화하고, 물리적 입자 충돌을 포착하고, 살아있는 세포 이미지의 해상도를 높이고, 다양한 생물학적 환경에서 세포 유형을 더 잘 감지하는 것 등이 있습니다.
02 과학 데이터의 의미 있는 표현 학습
딥 러닝은 다양한 추상화 수준에서 과학 데이터의 의미 있는 표현을 추출하고 최적화할 수 있습니다. 고품질 표현은 간결하고 접근이 용이한 동시에 가능한 한 많은 데이터 정보를 보존해야 합니다. 이러한 요구 사항을 충족하는 3가지 새로운 전략은 다음과 같습니다.기하학적 사전 확률, 자기 지도 학습, 언어 모델링.
기하학적 사전 확률
기하학과 구조는 과학 연구에 매우 중요합니다. 대칭은 기하학에서 중요한 개념이며, 중요한 구조적 특성은 공간 방향에서 안정적이며 변하지 않습니다. 기하학적 사전 지식을 학습된 표현에 통합하는 것은 과학적 이미지 분석에 효과적인 것으로 나타났습니다.
기하학적 딥러닝
그래프 신경망은 기본적인 기하학적 구조와 관계적 구조를 갖춘 데이터 세트에 대한 심층 학습을 위한 선도적인 접근 방식이 되었습니다. 과학적 질문에 따라 연구자들은 복잡한 시스템을 포착하기 위해 다양한 그래프 표현을 개발했습니다.

위 그림에서 보듯이, 기하학적 딥러닝은 그래프 구조와 신경 정보 전달 전략을 사용하여 분자/물질 등의 과학 데이터의 기하학, 구조, 대칭 정보를 통합합니다. 이 접근 방식은 그래프 구조의 에지를 따라 신경 정보를 교환하여 다른 기하학적 사전 지식(예: 불변성 및 산술 수열 제약)을 고려하면서 잠재 표현(임베딩 벡터)을 생성합니다. 그러므로,기하학적 심층 학습은 복잡한 구조 정보를 심층 학습 모델에 통합하여 기본 기하학적 데이터 세트를 더 잘 이해하고 처리할 수 있습니다.
자기 지도 학습
자기 지도 학습을 통해 모델은 명시적인 레이블에 의존하지 않고도 데이터 세트의 일반적인 특징을 이해할 수 있습니다. 이는 다운스트림 작업을 수행하기 위해 모델을 미세 조정하기 전에 대규모의 레이블이 지정되지 않은 데이터에서 전달 가능한 기능을 학습하는 주요 전처리 단계 역할을 할 수 있습니다. 이처럼 광범위한 과학적 도메인에 대한 이해를 갖춘 사전 학습된 모델은 범용 예측 변수입니다.다양한 작업에 적용할 수 있으므로 효율성을 높이고 순수하게 감독되는 방식을 능가합니다.

위 그림에서 보듯이 위성 이미지와 같은 다양한 샘플을 효과적으로 표현하려면 유사점과 차이점을 모두 포착해야 합니다. 대조 학습과 같은 자기 감독 학습 전략은 증강된 피어 데이터 생성, 긍정적 데이터 정렬, 부정적 데이터 쌍 분리를 통해 이러한 목표를 달성할 수 있습니다. 이러한 반복적 과정은 임베딩을 향상시켜 유익한 잠재 표현과 다운스트림 예측 작업에서 더 나은 성능을 가져옵니다.
언어 모델링
마스크드 언어 모델링은 자연어와 생물학적 시퀀스의 자기 감독 학습을 위한 널리 사용되는 방법입니다(아래 그림 참조).

자연어 처리와 생물학적 서열 처리는 서로 영향을 미칩니다.학습 과정에서 목표는 시퀀스의 다음 토큰을 예측하는 것이고, 마스크 기반 학습에서는 자체 감독 작업이 양방향 시퀀스 컨텍스트를 사용하여 시퀀스의 마스크된 토큰을 복구하는 것입니다. 단백질 언어 모델은 아미노산 서열을 인코딩하고, 구조적, 기능적 특성을 포착하고, 바이러스 변종의 진화적 적합성을 평가할 수 있습니다. 생화학적 서열을 다룰 때, 화학 언어 모델은 광대한 화학 공간을 효과적으로 탐색할 수 있습니다.
위 그림에서 보듯이, 마스크드 언어 모델링은 자연어나 생물학적 시퀀스와 같은 시퀀스 데이터의 의미를 효과적으로 포착할 수 있습니다. 이 접근 방식은 입력에서 마스크된 요소를 위치 인코딩과 같은 전처리 단계를 포함하는 변환기 모듈로 공급합니다. 회색 선은 자기 주의 메커니즘을 나타내며, 색상 깊이는 주의 가중치의 크기를 반영합니다. 마스크되지 않은 입력의 표현을 결합하여 마스크된 입력을 정확하게 예측합니다. 이 방법은 입력의 여러 요소에 걸쳐 자동 완성 프로세스를 반복하여 고품질의 시퀀스 표현을 생성합니다.
트랜스포머 아키텍처
Transformer는 그래프 신경망과 언어 모델을 통합하고, 자연어 처리를 지배하며, 지진 신호 감지, DNA 및 단백질 서열 모델링, 생물학적 기능에 대한 서열 변화의 영향 모델링, 상징적 회귀와 같은 분야에 성공적으로 적용되었습니다.
신경 연산자
함수 공간 간의 사상을 학습함으로써 신경 연산자는 이산화 불변성을 갖고, 모든 입력 이산화에 적용 가능하며, 그리드가 세분화되면 한계값으로 수렴합니다. 신경 연산자가 한 번 훈련되면 재훈련 없이도 어떤 해상도에서든 평가할 수 있습니다.
03 AI 기반 과학적 가설 생성
AI는 노이즈가 많은 관찰 결과에서 후보 상징 표현을 식별하여 가설을 생성할 수 있습니다. 그들은 사물을 설계하고, 가설의 베이지안 사후 확률을 학습하고, 이를 사용하여 과학적 데이터와 지식과 호환되는 가설을 생성하는 데 도움을 줄 수 있습니다.
과학적 가설의 블랙박스 예측기
약한 지도 학습은 노이즈가 많고 제한적이거나 부정확한 지도를 훈련 신호로 사용하여 모델을 훈련하는 데 사용할 수 있습니다.
AI 방법은 고충실도 시뮬레이션으로 훈련되었으며 대규모 분자 라이브러리를 효과적으로 스크리닝하는 데 사용되었습니다. 유전체학에서, 트랜스포머 아키텍처는 DNA 시퀀스를 사용하여 유전자 발현 값을 예측하도록 훈련되어 유전자 돌연변이를 식별합니다. 단백질 접힘에서 AlphaFold2는 아미노산 서열로부터 단백질의 3D 원자 좌표를 예측할 수 있습니다. 입자물리학에서 양성자에 내재된 참 쿼크를 식별하려면 가능한 모든 구조를 검토하고 실험 데이터를 모든 잠재적 구조에 맞춰야 합니다.
AI는 순방향 문제뿐만 아니라 역방향 문제를 해결하는 데에도 점점 더 많이 사용되고 있습니다.

위 그림에서 보듯이, 고성능 스크리닝은 실험적으로 생성된 데이터 세트를 기반으로 훈련된 AI 예측기를 사용하여 이상적인 특성을 가진 소수의 대상 객체를 걸러내는 것을 말합니다.이렇게 하면 후보 라이브러리의 전체 크기가 몇 배나 줄어듭니다.이 접근 방식은 자체 지도 학습을 사용하여 많은 수의 선별되지 않은 객체에 대한 예측기를 사전 학습한 다음, 레이블이 지정된 판독값이 있는 선별된 객체의 데이터 세트에 대한 예측기를 미세 조정할 수 있습니다. 실험실 평가와 불확실성 정량화는 이러한 접근 방식을 보완하여 스크리닝 과정을 간소화하고, 비용 효율성과 시간 효율성을 높이고, 궁극적으로 후보 화합물, 재료 및 생체 분자의 식별을 가속화할 수 있습니다.
조합 가설 공간 탐색
수동으로 설계된 규칙에 의존하는 기존 방식과 비교했을 때, AI 전략을 사용하면 각 검색의 보상을 평가하고 가치가 더 높은 검색 방향을 식별할 수 있습니다.
최적화 문제의 경우 진화 알고리즘을 사용하여 기호 회귀 작업을 해결할 수 있습니다.. 조합 최적화는 또한 바람직한 약물 특성을 가진 분자를 발견하는 것과 같은 작업에 적용할 수 있는데, 이 경우 분자 설계의 각 단계는 별개의 의사 결정 과정입니다. 또한 강화 학습 방법은 단백질 발현 극대화, 아마존 평원의 수력 발전 계획, 입자 가속기 매개변수 공간 탐색 등 다양한 최적화 문제에 성공적으로 적용되었습니다.

위 그림에서 보듯이, 상징적 회귀 동안 AI 내비게이터는 강화 학습 에이전트가 예측한 보상과 오컴의 면도날과 같은 설계 기준을 활용하여 후보 가설의 가장 유망한 요소에 집중합니다. 다음 예는 뉴턴의 만유인력의 법칙에 대한 수학적 표현에 대한 추론 과정을 보여줍니다. 점수가 낮은 검색 경로는 기호 표현 트리에서 회색 가지로 나타납니다. 가장 높은 예측 보상과 관련된 작업에 따라 안내됩니다.이러한 반복적 과정은 데이터와 일관성이 있고 다른 설계 기준을 충족하는 수학적 표현으로 수렴됩니다.
미분 가능한 가설 공간 최적화
미분 가능 공간은 국소 최적 솔루션을 효과적으로 찾을 수 있는 기울기 기반 방법에 적합합니다.그래디언트 기반 최적화를 가능하게 하기 위해 일반적으로 두 가지 접근 방식이 사용됩니다.
* VAE와 같은 모델을 사용하여 이산적인 후보 가설을 잠재적인 미분 가능 공간에 매핑합니다.
* 이산 가정을 미분 가능한 공간에서 최적화될 수 있는 미분 가능한 객체로 완화합니다(이러한 완화는 이산 변수를 연속 변수로 대체하거나 원래 제약 조건의 소프트 버전을 사용하는 등 다양한 형태로 이루어질 수 있습니다).
천체물리학에서는 VAE를 사용하여 사전 훈련된 블랙홀 파형 모델을 기반으로 중력파 검출기 매개변수를 추정했습니다. 이 방법은 기존 방법보다 6배나 빠릅니다. 재료 과학에서는 열역학적 규칙을 자동 인코더와 결합하여 결정 구조 맵을 식별하는 해석 가능한 잠재 공간을 설계합니다.

위 그림에서 볼 수 있듯이, AI 차별화 요소는 불연속적인 객체(예: 화합물)를 미분 가능한 연속 잠재 공간의 점에 매핑하는 자동 인코더 모델입니다. 이 공간을 사용하면 대규모 화학 라이브러리에서 특정 생화학적 종말점을 극대화하는 화합물을 선택하는 등 목표를 최적화할 수 있습니다. 이상적인 청사진은 학습된 잠재 공간을 묘사하며, 어두운 색상은 예측 점수가 높은 객체가 집중된 영역을 나타냅니다. 이 잠재 공간을 사용하여 AI 차별화자는 빨간색 별 주석의 예상 속성을 최대화하는 객체를 효율적으로 식별할 수 있습니다.
04 AI 기반 실험 및 시뮬레이션
컴퓨터 시뮬레이션은 비용이 많이 드는 실험실 실험을 대체하고 더욱 효율적이고 유연한 테스트 가능성을 제공할 수 있습니다.딥러닝은 효율적인 테스트를 위해 가설을 식별하고 개선할 수 있으며, 컴퓨터 시뮬레이션을 통해 관찰 결과를 가설에 연결할 수 있습니다.
과학적 가설을 효율적으로 평가합니다
AI 시스템은 실험 설계 및 최적화 도구를 제공합니다.이러한 도구를 사용하면 기존 과학적 방법을 보완하고, 필요한 실험 횟수를 줄이고, 자원을 절약할 수 있습니다.
구체적으로 AI 시스템은 실험 테스트의 두 가지 핵심 단계인 계획과 안내를 지원할 수 있습니다. AI 계획은 실험 설계, 효율성 최적화, 알려지지 않은 영역 탐색에 대한 체계적인 접근 방식을 제공합니다. 동시에 AI 지침은 실험 과정을 고수율 가설로 유도하여 시스템이 이전 관찰을 통해 학습하고 실험 과정을 조정할 수 있도록 합니다. 이러한 AI 접근 방식은 모델 기반(시뮬레이션과 사전 지식 사용)일 수도 있고, 모델 없이 머신 러닝 알고리즘에만 기반할 수도 있습니다.

위 그림은 AI를 사용하여 복잡하고 역동적인 핵융합 과정을 제어하는 방법을 보여줍니다. Degrave et al. 토카막 원자로의 자기장을 통해 핵융합을 조절할 수 있는 AI 컨트롤러를 개발했습니다. AI 에이전트는 전기 전압 레벨과 플라즈마 구성에 대한 실시간 측정값을 수신하고 실험 목표(정상적인 전원 공급 유지 등)를 달성하기 위해 자기장을 제어하는 조치를 취합니다. 컨트롤러는 시뮬레이션을 통해 학습되고 보상 함수를 사용하여 모델 매개변수를 업데이트합니다.
시뮬레이션을 사용하여 가설에서 관찰 가능한 결과 도출
기존의 컴퓨터 시뮬레이션 기술은 시스템의 기본 메커니즘에 대한 인간의 이해와 인식에 크게 의존합니다. AI 시스템은 복잡한 시스템의 주요 매개변수에 보다 정확하고 효율적으로 적응하고, 복잡한 시스템을 제어할 수 있는 미분 방정식을 풀고, 복잡한 시스템의 상태를 모델링함으로써 컴퓨터 시뮬레이션을 향상시킬 수 있습니다.
분자력장을 예로 들어보겠습니다. 이러한 함수는 해석 가능하지만 다양한 함수의 표현에는 제한이 있으며, 이를 생성하는 과정에는 강력한 귀납적 편향과 풍부한 과학적 지식이 필요합니다. 분자 시뮬레이션의 정확도를 높이기 위해 비용이 많이 들고 정확한 양자 역학 데이터에 적응하는 AI 기반 신경 전위가 개발되어 기존의 힘장을 대체하게 되었습니다.

복잡한 시스템의 계산 시뮬레이션에서 AI 시스템은 단백질 구형 구조 간 전환과 같은 비정상적인 이벤트를 더 빨리 감지할 수 있습니다. 위 그림에서 보듯이, Wang et al. 원래의 위치 에너지를 보상하는 위치 에너지의 증가를 안내하기 위해 신경망 기반 불확실성 추정기를 사용했고, 이를 통해 시스템이 국소적 최소값(회색)에서 벗어나 구성 공간을 더 빠르게 탐색할 수 있었습니다. 이러한 접근 방식은 시뮬레이션의 효율성과 정확성을 향상시켜 복잡한 생물학적 현상에 대한 더 깊은 이해로 이어질 수 있습니다.

신경 솔버는 물리학과 딥 러닝의 유연성을 결합합니다.:도메인 지식 기반 신경망 구축
05 과학을 위한 AI: 갈 길이 멀다
AI 시스템은 과학적 이해에 기여하며, 시각화하거나 감지하기 어려운 프로세스와 객체를 연구하고, 데이터에서 모델을 구축하고, 데이터를 시뮬레이션과 확장 가능한 컴퓨팅과 결합하여 새로운 아이디어를 체계적으로 생성할 수 있는 것으로 입증되었습니다. 하지만 AI의 보안과 개인정보 보호를 보장하기 위해서는이 과정에는 아직 성숙한 기술 구축이 필요합니다.
과학 연구에 AI를 책임감 있게 사용하려면 연구자는 AI 시스템의 불확실성, 오류, 유용성 수준을 측정해야 합니다. AI 시스템이 계속 발전함에 따라 AI는 이전에는 도달할 수 없었던 과학적 발견의 문을 열어줄 것으로 기대되지만, 이론, 방법, 소프트웨어 및 하드웨어 인프라 측면에서는 아직 갈 길이 멉니다.
참고문헌: