HyperAI초신경

활동리뷰丨상하이교통대학교/절강대학교/칭화대학교/오픈베이즈 의료/지리정보/도시복합시스템/과학연구의 새로운 패러다임을 다루는 다수의 전문가

特色图像

올해 노벨상이 AI를 '선호'하면서 과학을 위한 AI가 다시 한번 대중의 관심을 끌게 되었습니다. 이는 새로운 과학 연구 패러다임이 불가피한 추세가 되었다는 것을 나타내는 중요한 사건이라고 할 수도 있습니다. 실험과학에서 이론과학, 그리고 계산과학, 데이터집약과학으로 과학의 발전을 돌이켜보면, 각각의 패러다임 전환은 인간 문명의 진보를 크게 촉진해 왔습니다. 반복적인 과정 전체에서 데이터의 핵심 역할은 결코 변하지 않았습니다.

이제 과학을 위한 AI 시대를 맞아 데이터의 가치를 더욱 탐구할 수 있게 되었습니다.기초과학 연구 분야는 어떤 혁신을 가져올까? 수직 분야의 연구자들은 AI를 어떻게 받아들이는가?

HyperAI는 과학을 위한 AI의 발전 추세에 발맞춰, 최첨단 성과 해석, 대표 기업 보도, 학술 활동 개최 등 다양한 형태로 국내 AI4S 발전을 촉진하고, 국내 과학 연구자들을 위한 소통 플랫폼을 구축했습니다. 11월 2일공동 제작 커뮤니티인 HyperAI는 COSCon'24, 제9회 중국 오픈 소스 연례 컨퍼런스, 오픈 소스 사회 10주년 기념 카니발에서 과학을 위한 AI에 대한 오픈 소스 AI 포럼을 개최했습니다.

저희는 OpenBayes Bayesian Computing의 창립자이자 CEO인 왕 천한, 저장대학교 지구과학부의 특별 연구원인 치 진, 상하이 교통대학교의 종신 교수이자 상하이 인공지능 연구소의 젊은 과학자인 셰 웨이디, 그리고 청화대학교 전자공학과 도시과학 및 컴퓨팅 센터의 박사후 연구원인 딩 징타오를 초대하게 되어 영광입니다.

이 포럼에서는 4명의 강사가 의료 인공지능(AI4Health), 지리정보 인공지능(GeoAI), 과학연구 지능형 클라우드 플랫폼, AI 기반 도시 복합 시스템 등의 주제에 대해 심도 있는 지식 대중화, 사례 소개, 추세 분석 및 기타 측면을 공유했습니다.

그 다음에,각 강사의 강의 내용 중 주요 내용을 텍스트 기록과 영상으로 추후 보고드리겠습니다.기대해주세요!

AI가 주도하는 과학 연구의 새로운 패러다임: 인공지능을 통한 통계적 방법의 포괄적 업그레이드

OpenBayes Bayesian Computing은 중국의 선도적인 인공지능 서비스 제공업체입니다. 국내 최고의 대학과 연구 기관에 힘을 실어주는 과정에서 과학 분야 AI 개발에 대한 심도 있는 통찰력도 갖추고 있습니다. 최첨단 연구를 촉진하는 데 있어서 머신러닝의 가치에 관하여,회사의 창립자이자 CEO인 왕첸한은 혁신적인 공식을 제안했습니다. 규모 데이터 X 모델 구조 = AI 과학 연구 성과 - 전통 연구.

즉, 과학적 연구 과정에서 대규모 데이터를 효과적인 모델 구조에 적용함으로써 모든 산업 분야의 실제 연구 주제에서 기존 방법을 크게 능가할 수 있습니다. 이는 AI 기반 과학 연구가 지난 2년 동안 2~5배 성장을 이룬 중요한 이유입니다.

OpenBayes Bayesian Computing의 창립자이자 CEO인 Wang Chenhan

동시에 왕첸한은 모델 구조를 그대로 두고 무작정 데이터 양을 늘리면 한계효과가 발생해 성능 개선이 어려울 수 있다고 강조했다. 마찬가지로, 데이터 규모가 확실한 경우 모델 매개변수가 반드시 클수록 좋은 것은 아닙니다.데이터 규모와 매개변수 규모가 동등하게 증가해야만 예측 오류율이 더 낮은 수준으로 떨어질 것입니다.

또한 그는 전통적인 연구 방법과 AI 연구 방법의 차이점을 비교하는 데 중점을 두었습니다. 이 중 전통적인 연구 방법은 연구자 자신의 특성과 문제 정의 능력에 크게 의존하며, 단지 '소규모 데이터'만을 사용하기 때문에 일반화 및 확장 가능성에 의문이 제기됩니다.AI 연구 방법은 대규모의 고품질 데이터 도입과 머신 러닝을 이용한 특징 추출을 필요로 하며, 이를 통해 생산된 과학적 연구 결과가 실제 문제에서도 여전히 효과적일 수 있습니다.

마지막으로 Wang Chenhan은 OpenBayes 베이지안 컴퓨팅이 과학을 위한 AI를 어떻게 구현하는지 소개했습니다.오픈 소스 데이터 세트, AI/HPC 튜토리얼, 오픈 소스/비공개 모델 등의 과학 연구 데이터 요소를 클러스터 소프트웨어로 캡슐화합니다.과학 연구자들이 모델 구축, 모델 추론, 산업용 소프트웨어 컴퓨팅 등에서 원스톱 연결을 달성할 수 있도록 지원합니다.

GeoAI와 그 학제간 지구과학 응용 프로그램

지리정보과학 분야에서는 공중, 우주, 육지, 지하 등에서의 입체 관측 기술이 발달하면서 데이터 폭발이 가속화되었고, 시공간적 빅데이터라는 개념이 생겨났습니다. 그러나 다양한 규모의 시공간적 프로세스에 의해 생성되는 엄청난 양의 데이터 역시 정보 마이닝에 있어서 주요 과제입니다.

저장대학교 지구과학부의 특별임명연구원인 치진 박사는 다음과 같이 말했습니다.지리적 관계 회귀 분석은 지리적 모델링 연구에서 인기 있는 주제입니다.새로운 공간 회귀 분석 방법을 개발하고 지리적 관계를 분석하고 탐구하는 능력을 향상시키는 것은 사회적 과정과 지리적 현상을 이해하는 데 있어 중요한 이론적 가치와 실용적 의의를 갖습니다.

저장대학교 지구과학대학 연구원 치진 박사

이에 대응하여 치진 박사와 그의 팀은 공간적 가중치 아이디어를 신경망 모델과 통합했습니다.지리적 신경망 가중 회귀 모델(GNNWR)이 제안되었습니다.공간 회귀 분석법은 지리적 요소 간의 비선형 관계를 설명하고 이에 맞게 확장되었습니다. 동시에,또한 이 팀은 PyTorch를 기반으로 한 오픈소스 모델 라이브러리인 시공간적 지능형 회귀 모델을 개발했습니다.이 방법론 체계는 지리학, 지질학, 해양학, 대기학 및 기타 분야에서 30개 이상의 연구를 지원했습니다.

응용 측면에서 그는 도시 주택 가격 예측, 대기 오염 분석, 해양 생태 환경 모델링과 같은 시나리오에서 GNNWR 모델의 성능을 소개했습니다.

* 해안을 따라 희소하게 샘플링된 지점과 알려지지 않은 지점 사이의 시공간적 관계를 확립하고 시공간적 비정상 가중치를 해결하여 해안 수역의 용해된 규산염(DSi) 분포에 대한 높은 시공간적 분해능을 얻습니다.

* GNNWR은 도시 환경의 공간적 비정상성을 정확하게 기술할 수 있으므로 주택 가격과 같은 도시 지리적 과정의 회귀 모델링이 가능합니다.

* 변전소에서 수집한 AOD, DEM, 기후인자 자료 및 PM2.5 자료를 가공하여 공간적 비정상 회귀관계를 확립하고 PM2.5 농도를 추정한다.

* Shapley의 해석 가능성 이론을 GNNWR에 통합하면 복잡한 공간 환경에서 지질 광화작용을 정확하게 예측하고 해석할 수 있습니다.

팀의 주요 목표: 일반 의료 인공지능 시스템 구축

상하이 교통대학의 종신 교수이자 상하이 인공지능 연구소의 젊은 과학자인 셰 웨이디는 컴퓨터 비전 분야에 깊이 관여해 왔습니다. 그는 2022년 중국으로 돌아온 후 의료 인공지능 연구에 전념하고 있습니다. 이 포럼에서는그는 오픈 소스 데이터 세트 구축 및 모델 개발을 포함한 다양한 관점에서 팀의 성과를 공유했습니다.

셰 웨이디 교수는 의학, 특히 근거 중심 의학에 대한 대부분의 지식은 인간의 경험에서 요약된다고 소개했습니다. 초보자가 의학 서적을 모두 읽게 되면, 적어도 이론에 있어서는 의학 전문가가 될 수 있다. 그러므로,모델 훈련 과정에서 우리는 모든 의학적 지식을 모델에 주입하고자 합니다.

Shanghai Jiao Tong University의 Xie Weidi 교수

하지만 의료 분야에서는 개인정보 보호 문제로 인해 고품질 데이터가 상대적으로 부족합니다.그래서 중국으로 돌아온 후 셰 웨이디 교수와 그의 팀은 대규모 의료 데이터 세트를 구축하기 시작했습니다.구체적으로:

* PubMed Central에서 160만 개의 대규모 이미지-캡션 쌍을 수집하여 PMC-OA 데이터 세트를 구축했습니다.

* PMC-OA에서 227,000개의 의료 시각적 질문-답변 쌍을 생성하여 PMC-VQA를 형성했습니다.

* Radiopaedia 종에서 53,000개의 사례와 48,000개의 다중 이미지-캡션 쌍을 수집하여 Rad3D 데이터 세트를 구축했습니다.

* PubMed Central(PMC)은 미국 국립 생명공학정보센터에서 만들고 유지 관리하는 무료 전문 데이터베이스로, 생물의학 및 생명과학 분야의 오픈 액세스 학술 논문을 전문으로 합니다. 

* Radiopaedia는 방사선학 및 의료 영상 지식에 대한 고품질의 무료 액세스를 제공하며, 방사선과 의사/학생 및 기타 의료 전문가가 사례, 기사 및 영상 예시를 기고할 수 있는 협력적이고 개방적인 편집 플랫폼입니다.

모델 구축 측면에서,그는 주로 팀에서 개발한 의료용 언어 모델이나 시각 언어 모델을 소개했습니다.예를 들어, PMC-LLaMA, 다국어 의료 모델 MMedLLaMA, SAT와 같은 일반 세분화 모델이 있습니다.

복잡한 도시 시스템을 위한 시공간적 생성 모델링 접근법

청화대학교 전자공학과 도시과학 및 계산연구센터의 딩징타오 박사는 AI 기반 시공간 복잡 시스템의 생성적 모델링과 응용에 중점을 두고 있습니다.딩징타오 박사는 복잡한 도시 시스템을 모델링하기 위한 시공간적 생성 AI 도입에 중점을 두었습니다.

딩징타오 박사는 복잡한 도시 시스템을 모델링하는 데 현재 직면한 주요 어려움으로는 고차원, 다중 모드 시공간 데이터가 지나치게 많다는 점을 꼽았습니다. 시스템의 엄청난 규모와 다양한 요소 간의 상호 작용은 무시할 수 없습니다. 각 시스템의 데이터 분포가 매우 다르기 때문에 보편적인 모델 등을 사용하는 것은 불가능합니다.

칭화대학교 딩 징타오(Jingtao Ding) 박사

이에 대응하여 그와 그의 팀은 복잡한 도시 시스템을 모델링하기 위해 시공간적 생성 AI를 탐구하기 시작했습니다.군중 흐름 시뮬레이션을 위해 물리적 지식에 따른 확산 모델이 제안되었습니다. 네트워크 역학을 강화한 확산 모델이 시스템 복원력 예측을 위해 제안되었습니다. 그리고 일반적인 시공간적 예측을 위해 신속한 학습으로 강화된 시공간적 GPT가 제안됩니다.

구체적으로:

* 보행자 흐름 시뮬레이션 모델 SPDiff는 실제 보행자 흐름 데이터 세트를 기반으로 6.5%-37.2의 성능 개선을 달성했으며, 작은 표본 크기에서도 일반화 능력이 더 우수했습니다.

* 시스템 복원력 예측 모델은 확산 모델을 기반으로 복원력/비복원력 시스템의 관찰 샘플을 생성하며, 20개(2%)의 라벨링된 샘플만 사용하고 87%(F1 점수)의 예측 정확도를 유지합니다.

* 범용 시공간 예측 모델 UniST는 20개 이상의 시공간 데이터 세트와 1억 3천만 개 이상의 시공간 샘플 포인트를 수집합니다. 이는 유효한 시공간 패턴을 저장하고 마이그레이션 일반화를 달성하기 위한 즉각적인 벡터를 생성하기 위해 외부 시공간 메모리 네트워크를 사용합니다.

마지막 말

HyperAI는 과학을 위한 AI 개발에 주목하는 가장 초기의 오픈소스 커뮤니티 중 하나로서, 앞으로도 국내외의 최첨단 혁신적 성과에 주목하고, 모든 사람에게 실질적인 해석과 보고서를 제공할 것입니다. 동시에 다양한 온라인 생중계와 오프라인 학술포럼을 통해 연구자들 간의 소통과 교류의 플랫폼도 구축하고 있습니다. 관련 연구에 참여하는 연구 그룹은 논문을 제출하거나 최신 연구 결과를 공유해 주시기 바랍니다!