HyperAI초신경

상하이 교통대학교 AI4S팀은 학제간 AI 연구 지원팀을 구축하기 위해 '지능형 과학 시설' 개념을 제안했다.

特色图像

최근 몇 년 동안 과학 연구에 인공지능을 적용하는 방식은 단백질 접힘에서 신소재 발견, 질병 예측에서 예후 및 치료, 천체 탐사에서 자연재해 분석에 이르기까지 응용 분야를 확대하는 동시에 심도 있게 발전해 왔습니다.과학 분야 AI의 꽃피움 뒤에는 한편으로는 국내외 AI 기업들이 과학 연구 분야에서 연구개발을 진행하면서 AI 도구 활용의 문턱이 낮아졌습니다. 반면, 과학 연구자들은 'AI 도우미'를 수용하는 과정에서 이들과 효율적인 협업 모델을 개발했습니다.

Nature의 분석에 따르면 Scopus 데이터베이스에서 제목이나 초록에 인공지능이나 인공지능 관련 키워드를 언급한 논문의 비율이 10년 전 2%에서 현재 8%로 증가한 것으로 나타났습니다. 하지만 구글 딥마인드 등 기술 대기업이 공개한 대형 모델이나 툴, 그리고 국내외 대학 연구팀이 발표한 관련 연구 결과를 살펴보면, 대부분은 특정 분야의 특정 문제를 목표로 하고 있어 재현성이 부족합니다.

베이징대학교 지능대학 린 저우천 교수는 HyperAI와의 인터뷰에서 "현재 AI 도구는 통일성이 부족합니다. 수학에만 집중하더라도 정수론과 기하학을 위해 개발된 AI 도구 사이에는 이미 큰 차이가 있으며, 학제간 AI 도구는 말할 것도 없습니다. AI 도구는 아직 오늘날 컴퓨터처럼 쉽게 접근할 수 있는 기본적인 토대가 되지 못했습니다. 현재 사용되는 컴퓨터 언어로는 C, Java, Python 등이 있으며, 이러한 언어 중 하나를 사용하여 수학, 물리, 화학 등 여러 분야의 문제를 해결하는 것이 충분히 가능합니다. 이는 AI 도구의 다재다능함을 보여줍니다. 하지만 AI 도구는 그렇지 않습니다. 구글 딥마인드의 알파 시리즈만 봐도 이를 알 수 있습니다."라고 말했습니다.

이를 고려하여,상하이 교통대학교 인공지능 연구소의 AI for Science팀 소속 양샤오캉 교수 등은 지능형 과학시설 건설 개념을 제안했습니다.이는 과학 분야의 대규모 모델, 생성적 시뮬레이션 및 역산, 자율적 지능형 무인 실험, 대규모 신뢰할 수 있는 과학 연구 협업과 같은 혁신적인 기능을 형성합니다. 관련 연구 결과가 발표되었습니다.중국과학원 회보》.

서류 주소:
http://www.bulletin.cas.cn/previewFile?id=52965146&type=pdf&lang=zh
공식 계정을 팔로우하고 "AI4S"라고 답글을 달면 전체 논문을 받아볼 수 있습니다.

혁신과 권한 부여의 균형

상하이 교통대학 AI for Science팀은 지능시대 기초과학의 근원적 혁신과 주요 하류 기술 혁신을 실현하기 위해서는 두 가지 핵심 문제를 시급히 해결해야 한다고 제안했습니다.


*과학을 위한 AI 연구 패러다임을 기반으로 새로운 과학 정보 시설을 어떻게 구축할 수 있을까? 

*새로운 세대의 AI를 활용해 기존 과학 시설을 강화하는 방법은 무엇일까?

지능형 과학 시설의 전반적인 아이디어

혁신 측면에서,신세대 AI(특히 생성 AI와 대형 모델)의 창의성과 다양성을 기초과학 분야에서 체계적이고 종합적으로 발휘하여 자발적 가설 생성, 자동 법칙 도출, 자율 무인 실험, 자체 구동 신뢰 협업 등의 혁신적 기능을 실현하고, 초대규모, 고속 반복적 과학 탐구를 촉진해야 합니다.

전통적인 과학 시설과 연구 패러다임에 따르면,과학 연구 과정 전체에는 과학적 문제를 전달하는 데 어려움이 있고, 과학 실험을 수행하는 데 어려움이 있으며, 과학 데이터를 공유하는 데 어려움이 있습니다. 이러한 어려움은 일부 첨단 대규모 과학 시설과 매우 복잡한 과학 연구 환경에서 특히 두드러집니다. 새로운 세대의 AI를 사용하여 "과학적 문제(과학자) - 실험 장비(실험자) - 과학 연구 데이터 및 문헌(과학 연구 기관 및 중개자)"의 효율적인 폐쇄 루프를 달성하는 것은 새로 건설되는 과학 시설의 표준적인 특징일 뿐만 아니라, 기존 과학 시설을 업그레이드하고 개조하는 과정에서 새로운 요구이자 새로운 기회이기도 합니다.

따라서 "AI 기반 과학 시설"(AISF)을 구축한다는 팀의 아이디어는 "고도로 지능적인 새로운 과학 시설 만들기"와 "기존의 대규모 과학 시설 강화"라는 두 가지 측면을 고려했습니다.

지능형 과학 시설의 건축 개념

위 그림에서 보듯이, 지능형 과학 시설은 사람이 참여하는 3중 구조의 과학적 지능형 시설 아키텍처를 형성합니다.


*베이스 지지층고성능 컴퓨팅과 컴퓨팅 파워 네트워크를 통해 컴퓨팅 파워 지원을 형성합니다. 

*과학적 모델 레이어, 학제간 및 교차 모달 과학 모델과 "AI 연구 지원자"를 구축합니다.
* 실험적 응용 계층AI가 작동하는 로봇과 지능형 실험 환경을 통해 자율적인 무인 실험과 다자간 과학 연구 협업이 이루어질 수 있습니다.

4가지 혁신적인 기능

3계층 아키텍처를 기반으로 지능형 과학 시설은 기존 패러다임에는 없었던 4가지 주요 새로운 기능을 형성할 수 있습니다. 즉, 대규모 과학 모델, 생성적 시뮬레이션 및 역산, 고처리량 자율 무인 실험, 대규모 신뢰할 수 있는 과학 연구 협업입니다.

지능형 과학 시설의 혁신적 기능

과학적 모델

인간 과학자가 과학 연구를 수행하는 것을 돕는 "AI 조수"로서, 과학적 빅 모델은 학제간 지식 배경을 갖추고, 교차 모달 데이터 입력을 처리할 수 있어야 하며, 피드백과 평가를 결합하여 외부 과학 도구의 호출을 마스터하여 지속적인 진화를 이룰 수 있어야 합니다.

과학 모델의 전체 구조

위 그림에서 보듯이, 대규모 과학 모델을 구축하려면 기본적인 대규모 언어 모델 위에 4가지 전문 역량을 형성하고, 이에 상응하는 평가 벤치마크를 구축해야 합니다.

첫 번째는 여러 학문과 방식에 걸쳐 의견을 통합하는 능력입니다.과학적 연구를 통해 생성되는 데이터에는 일반적으로 텍스트 데이터 외에도 공식, 차트, 분자식과 같은 다중 모드 데이터가 포함됩니다. 이러한 교차 모달 데이터의 통합된 입력을 달성하고 학제간 전문 지식을 공동으로 모델링하는 방법은 대규모 과학 모델을 구축하는 데 있어 긴급하게 해결해야 할 어려운 문제입니다.

두 번째는 외부 과학 도구를 효과적으로 활용할 수 있는 능력입니다.대규모 모델은 겉보기에 타당해 보이지만 실제로는 오류가 있는 콘텐츠를 출력하는 문제가 있습니다. 이 문제를 해결할 수 있는 실현 가능한 기술적 접근 방식은 대규모 모델을 계획 및 추론 엔진으로 활용하고, 다양한 유형의 외부 과학 도구를 호출하여 신뢰성과 정확성을 높이는 것입니다.

세 번째는 모델이 지속적으로 피드백을 제공하고 발전할 수 있는 능력입니다.한편, 과학적 대규모 모델은 연구자로부터 얻은 고품질 피드백을 활용하여 과학 분야의 전문적 지식을 개선하고, 과학적 지식을 모델링하고 추론하는 능력을 강화하며, 과학적 콘텐츠 생성, 문헌 귀납 및 추론 수준을 개선할 수 있습니다. 반면에, 그들은 실험적 피드백을 활용하여 과학적 가설을 생성하고 실험 계획을 최적화하는 능력을 지속적으로 향상시킬 수 있습니다.

네 번째는 환상(환각) 제거 능력.환각이란 모델에서 생성된 콘텐츠가 실제 사실이나 사용자 입력과 일치하지 않는 현상을 말합니다. 전문가의 지식을 효과적으로 검토하고, 강화 학습을 위한 고정밀 전문 지식을 활용하여 대규모 모델의 반복과 업데이트를 달성하는 것은 과학적 환상을 없애는 중요한 방법입니다. 또한, 특정 분야에서 모델의 신뢰성과 정확성을 높이기 위해 기반 모델을 기반으로 한 타겟형 최적화와 통합을 수행하는 것도 과학적 환상을 바로잡는 중요한 방법입니다.

마침내,과학적 빅모델의 평가 벤치마크는 한편으로는 과학적 빅모델의 교차 모달 및 교차 학제적 데이터 이해 및 모델링 역량을 테스트합니다. 반면에, 과학적인 대형 모델이 과학적 도구를 사용하여 복잡한 작업을 정확하고 견고하게 완료할 수 있는 능력이 있는지, 그리고 거짓되고 유해한 콘텐츠 생성을 거부할 수 있는 강력한 능력이 있는지 여부를 평가합니다.

생성 시뮬레이션 및 역전

과학 연구의 중요한 패러다임 중 하나는 시뮬레이션과 컴퓨터 시뮬레이션 도구를 사용하여 "이론과 현상" 사이의 추론을 달성하는 것입니다. 수치 계산을 기반으로 하는 기존 시뮬레이션 방법은 실제 상황에서 솔루션 속도와 정확도 측면에서 한계와 과제를 안고 있습니다.

생성 시뮬레이션 및 시뮬레이션 공간의 역전

위 그림에서 보듯이 생성 신경망이 기본 구조입니다.복잡한 시스템의 수치적 해결 문제는 데이터 피팅 문제로 변환될 수 있습니다.가설 공간에서 시뮬레이션 공간으로의 효율적인 매핑을 통해 솔루션의 속도를 높입니다. 또한 생성 렌더링 기술은 시뮬레이션 공간에서 관찰 공간으로 과학적 현상 표현을 생성하고, 이후 "가설-시뮬레이션-관찰"의 세 공간에 걸쳐 폐쇄 루프 학습을 실현하여 법칙의 역전을 구동할 수도 있습니다.

자율 지능형 무인 실험 시스템

자율 지능형 무인 실험 시스템은 AI 및 로봇 분야의 기술적 성과를 과학 실험과 결합하고, 무인화, 표준화, 대규모 실험 프로세스를 통해 실험의 효율성과 재사용성을 향상시키는 것을 목표로 합니다.

셀프서비스 지능형 무인 실험 시스템

그 중 무인실험운영플랫폼 및 지능형 시스템의 업무흐름은 주로 3단계로 구성된다.
* 솔루션의 자동 최적화 

*자율적인 임무 계획
*무인 실험 운영

동시에, 작업 정확도에 따라,무인 실험 작업은 미시적 규모와 거시적 규모라는 두 가지 공간적 규모로 나눌 수 있습니다.미세한 규모의 무인 실험 대상은 대개 살아있는 세포나 단백질과 같은 아주 작은 입자이며, 고정된 실험 플랫폼이 종종 사용됩니다. 핵심 문제는 고정밀 작업의 처리량을 향상시키는 것입니다. 거시적 무인 실험 작업은 실험 과정의 완전성에 초점을 맞추며, 주로 실험 장비 사이를 자율적으로 이동하기 위해 로봇 팔이 장착된 모바일 로봇을 사용하여 다중 작업 전체 과정의 자동화된 실험을 완료합니다.

또한 하드웨어 플랫폼을 기반으로 지능형 시스템 소프트웨어를 구축하는 것은 자율형 지능형 무인 실험 플랫폼의 또 다른 기본 문제입니다. 이 소프트웨어는 자기 상태 인식, 외부 환경 인식, 모바일 탐색, 기기 위치 지정, 실험 작업 계획 및 제어 실행 프로세스를 구동합니다. 심층 강화 학습과 모방 학습은 환경 상호작용의 경험 궤적이나 전문가 교육 궤적을 통해 자율 학습을 수행하고 관찰 정보와 최적 행동 간의 매핑 관계를 구축할 수 있습니다.

대규모 과학 연구 협력

지능형 과학 시설은 AI 모델의 개발과 테스트를 용이하게 하기 위해 데이터 공유를 지원하지만, 데이터 개발자의 지적 재산권과 이익을 식별하고 보호하기 위해 일련의 조치를 설계해야 합니다. 최근 들어, 분산 과학(DeSci)이 연구자들의 많은 관심을 끌고 있습니다. DeSci는 스마트 계약 및 블록체인을 포함한 Web3 도구를 사용하여 과학 연구에서 지적 재산권 문제를 해결하고 과학 데이터의 공유와 순환을 촉진하는 것을 목표로 합니다.

연구팀이 제안한 지능형 과학시설 구조에서는블록체인 기술은 안전하고 신뢰할 수 있는 협업 환경을 조성하는 기반을 제공합니다. 연합 학습 기술은 분산된 협업 환경에서 데이터 사일로 문제를 해결하고 데이터 보안과 과학 연구 효율성을 보장할 수 있습니다. 인터넷 군집 지능은 다양한 과학 연구 모듈을 단일 플랫폼으로 통합하여 효율적인 대규모 과학 연구 협업을 달성할 수 있습니다.

대규모 과학 연구 협력 시스템

과학을 위한 AI 개발을 실천하고 촉진합니다.

지능형 과학 시설 개념 구현의 첫 단계로, 상하이 교통대학은 과학을 위한 AI 과학 데이터 개방 플랫폼을 구축했습니다. 이 플랫폼에는 과학 컴퓨팅 파워 기반, 과학 데이터, 인공지능, 과학 협력의 네 가지 하위 플랫폼이 포함됩니다. 이 플랫폼을 기반으로 "Magnolia Science Model"을 개발하여 2023년 7월과 12월에 각각 화학, 유체, 법학, 교차과학 평가 벤치마크 및 기타 분야를 포괄하는 버전 1.0과 2.0을 출시했습니다.

안에,얼마 전 공개된 "Magnolia Science Model 2.0"에는 "오픈소스법(BAI-Law-13B)"과 "화학합성 2.0(BAI-Chem 2.0)"이 포함되어 있습니다.

BAI-Law-13B는 중국 인터넷, 오픈 소스 코드, 사법 문서, 법률 문서 및 법률 서적에서 얻은 방대한 양의 권위 있는 데이터를 사용하여 도메인 사전 학습을 거쳐 BAI-Law-13B-Base 모델을 형성했습니다. 이를 바탕으로 법률지식 기억, 법률지식 이해, 법률지식 응용 등 사법적 응용 시나리오에 대한 통합 감독 및 미세조정을 통해 BAI-Law-13B-SFT 모델을 형성했습니다. 제3자 법률종합평가 벤치마크에서 보고된 바에 따르면 로벤치  테스트에서 모든 오픈소스 중국 일반 대형 모델과 중국 법적 대형 모델을 능가했습니다.

BAI-Chem 2.0은 빠르고 효율적인 약물 분자 설계를 실현할 수 있으며, 초당 30개의 표적에 대한 약물과 유사한 고친화도 분자를 설계할 수 있습니다. 공개 데이터 세트인 USPTO 테스트 세트에 대한 Top1 단일 단계 역합성의 정확도는 현재 문헌에서 가장 우수한 것과 비교하여 15%만큼 향상되었습니다. 고처리량 실험 데이터의 수율 예측 R²는 0.88에 도달했습니다. 촉매 추천 정확도는 93.7%에 도달했습니다. 현재 BAI-Chem 2.0은 습식 실험 검증을 효과적으로 연결하고, 실험 최적화를 온라인으로 실현하며, 화학 실험의 효율성을 빠르게 향상시켰습니다.

과학을 위한 AI에 대한 초기 관심과 해당 연구팀의 설립은 상하이 교통대학이 AI의 최첨단 응용 분야인 AI4S에 얼마나 큰 중요성을 두고 있는지 보여주기에 충분합니다. 현재 이 팀은 관련 성과를 창출했을 뿐만 아니라, 관련 기업과도 협력을 이어가고 있습니다. 가까운 미래에 "지능형 과학 시설 개념"에 대한 학제간 및 플랫폼 기반 협업이 실제로 실현될 것으로 믿어집니다.

참고문헌:
1.https://news.sjtu.edu.cn/jdzh/20240124/193351.html
2.https://cloud.baidu.com/news/news_85aaa2be-241d-45c2-8aa1-3c8bbcfbd09b