상하이 교통대 홍량 교수: AI가 공학 분야에서 획기적인 발전을 이루고자 한다면 기존 인간 전문가들이 달성할 수 없는 공학적 성과를 달성해야 합니다.

최근 상하이 교통대학교의 AI 생명공학 여름학교가 성공적으로 마무리되었습니다. 100명이 넘는 업계 전문가, 사업 담당자, 기업, 연구 기관, 대학의 뛰어난 젊은 학자들이 모여 생명공학 분야에서 AI를 적용하는 방안을 놓고 치열한 아이디어 교류를 벌였습니다.
안에,상하이 교통대학교 물리천문학부, 약학부 자연과학연구부의 홍량(Hong Liang) 교수는 과학 연구, 특히 단백질 설계에 AI를 적용하는 방법과 과학 분야에서 AI가 앞으로 어떻게 발전할 것인지에 대한 자신의 전망을 간단하고 이해하기 쉬운 방식으로 공유했습니다.
주요 관점의 발췌문:
* 과학 분야에 AI를 적용하려면 먼저 과학적 문제를 정의한 다음 인공지능 솔루션을 제시해야 합니다.
* AI는 좋은 활성과 높은 양성률을 유지하면서 수백 개의 아미노산 서열을 변형할 수 있습니다. AI는 이미 이런 종류의 시퀀스 생성 작업에서 인간 전문가보다 훨씬 뛰어납니다. * 단백질 공학 분야는 가장 부정적인 데이터를 가지고 있습니다. AI는 부정적인 측면과 긍정적인 측면을 결합하여 단백질 공학의 상상력 공간을 확장할 수 있습니다. 이는 전문 효소 엔지니어의 합리적인 설계 범위를 넘어선다. AI는 기본적으로 물리적 계산의 기존 경로를 대체했습니다. * 인공지능이 공학 분야에서 획기적인 발전을 이루고자 한다면, 단순히 과학자의 조수가 되어 문헌 수집과 같은 기본적인 작업을 수행하는 것이 아니라, 인간 전문가가 할 수 없는 일을 하는 것입니다. * 향후 3년 동안 단백질 설계, 약물 개발, 질병 진단, 신규 타겟 발굴, 화학 합성 경로 설계, 소재 설계 등 전문 분야의 일반 인공지능은 뚜렷한 패러다임 전환을 가져올 것이며, 인간 뇌의 산발적인 시행착오에 의존하던 과학적 발견 모델을 AI 대규모 모델 자동화 표준 설계 모델로 전환할 것입니다.
HyperAI는 원래 의도를 훼손하지 않으면서 홍량 교수님의 훌륭한 공유 내용을 편집하고 요약했습니다. 다음은 연설의 주요 내용을 요약한 것입니다.

AI 예술 학생 vs. AI 과학 학생
홍량 교수는 각각 AI 인문학 전공 학생과 AI 과학 전공 학생의 관점에서 삶에 AI를 적용하는 것(AI for Life)과 과학 연구에 AI를 적용하는 것(AI for Science)을 소개했습니다.
AI 인문학 전공생: 삶의 개인 비서
AI for Life에 관해 홍량 교수는 현재 AI가 사람들의 삶에서 개인 비서가 되어 사람들이 반복적이고 창의적이며 비과학적인 작업의 부담을 줄이는 데 도움이 된다고 생각합니다.이 방법의 특징은 학습에 사용할 수 있는 데이터의 규모가 매우 크고, 생성된 결과에 높은 정확도가 필요하지 않다는 것입니다. 따라서 강력한 교차 도메인 일반화 기능을 갖추고 대규모 일반 도메인 모델을 구축할 수 있습니다.
이어 그는 AI 텍스트 생성, AI 이미지 생성, AI 비디오 생성 등의 구체적인 사례를 들어 현재 인기 있는 빅모델과 결합해 AI가 삶에 어떻게 적용되는지 생생하게 설명했습니다.

AI 텍스트 생성 측면에서 홍량 교수는 발렌타인 데이에 아내를 위해 시를 쓴 사례를 들어 ChatGPT의 시 창작 능력을 보여주었습니다. 동시에 그는 초등학교 아들이 자기비판을 쓰도록 돕기 위해 웬신이옌을 활용한 사례를 공유하며 웬신이옌의 텍스트 창작 능력을 보여주었습니다.

AI 이미지 생성 측면에서 홍량 교수는 각각 바이두 원신 이얀, 어도비 파이어플라이, 미드저니를 시연했으며, 아래 그림에서 보듯이 동일한 프롬프트 단어를 기반으로 생성된 다양한 효과를 보여주었습니다.

AI 영상 생성 측면에서 홍량 교수는 인기 있는 소라의 강력한 영상 생성 능력을 시연했습니다. 그는 소라가 제작한 도쿄의 거리를 걷는 세련된 여성의 영상을 예로 들며, 영상에 나타난 원샷 기술과 얼굴 모공의 세밀한 처리가 훌륭하다고 칭찬했습니다.
동시에 그는 "소라는 데이터 기반 물리 엔진"이라는 업계 관계자들의 평가에 동의하며, 빈센트 비디오가 틱톡과 같은 플랫폼의 콘텐츠 제작자에게 큰 도움이 되었다고 믿었습니다.

AI 과학 학생: 다양한 과학 문제를 해결하는 과학자
AI 과학 학생, 즉 AI for Science 또는 AI for Engineering을 위해 Hong Liang 교수는 다음과 같이 믿습니다. "과학 문제를 해결하는 과학자입니다. 본질적으로는 생의학, 재료화학, 핵물리학 등 다양한 분야의 과학자를 양성하는 것입니다."핵심적인 어려움은 정확도 요구 사항이 매우 높고, 학습에 사용할 수 있는 기능적 데이터가 상대적으로 적어 독점적인 AI 모델만 구축할 수 있다는 것입니다.

홍량 교수는 과학 분야에 AI가 어떻게 적용되는지 모든 사람이 더 잘 이해할 수 있도록 생물학/의학 분야 AI, 재료/화학 분야 AI, 제어된 핵융합 분야 AI 등 구체적인 사례를 바탕으로 심층 분석을 수행했습니다.
첫 번째는 생물학 분야의 AI 사례입니다.홍량 교수는 "단백질 3차원 구조 예측은 과학을 위한 AI의 가장 중요한 시작점"이라고 말했습니다. 그는 단백질 구조 예측이 과학자들에게 거의 50년 동안 고민거리였다고 밝혔다. "DeepMind가 AlphaFold 모델을 출시하기 전까지 과학자들은 일반적으로 AI를 사용해 단백질 구조를 예측하는 것은 단지 게임에 불과하다고 생각했습니다."
AlphaFold 1부터 AlphaFold 3까지 AI는 단백질의 3차원 구조를 예측하는 데 뛰어난 능력을 보여주었습니다. 특히 AlphaFold 3의 정확도는 단백질-리간드 상호작용, 단백질-핵산 상호작용, 항체-항원 예측 등 이전의 여러 전문 도구에 비해 크게 향상되었습니다.

두 번째는 AI 약물 설계의 경우입니다.홍량 교수는 AI 약물 설계는 분자 수준의 문제를 해결해야 할 뿐만 아니라 후속 임상 시험의 과제에 직면해야 하기 때문에 상대적으로 어렵다고 말했습니다. 고처리량 스크리닝과 같은 기존의 약물 발견 방법에서는 수천 개의 소분자를 테스트하고 소수의 선도 화합물만을 도출해내는데, 그 중 10개 중 1개, 심지어 그 이하만이 임상 시험을 통과합니다.
2019년 Nature Biotechnology에 발표된 연구 결과는 약물 설계에 있어 AI가 엄청난 잠재력을 가지고 있음을 보여주었습니다. 연구진은 강화 학습(GENTRL)을 사용하여 섬유화 질환과 관련된 키나제 표적인 디스코이딘 도메인 수용체 1(DDR1)의 강력한 억제제를 21일 만에 발견했습니다. 연구진은 AI 기술을 활용해 먼저 3만여 개의 분자를 선별한 뒤, 다양한 스크리닝 방법을 활용해 39건의 세포 실험을 진행해 세포 활성도가 높은 분자 6개를 찾아냈고, 마지막으로 1개를 임상시험에 돌입했습니다.
또한 홍량 교수는 재료/화학 분야에서의 AI 사례도 언급했습니다.그는 믿는다"소재, 특히 화학 소재에 대한 AI는 구현하기 어려운 일입니다."하지만 자료는 자연어, 인간 언어, DNA 서열과 같지 않습니다. 그들은 개별적인 토큰을 가지고 있지 않습니다. 재료는 본질적으로 3차원 구조 문제이므로, 대규모 모델을 구축할 때 DFT 계산, 자동화된 실험, AI를 결합하여 특정 무기 화합물의 합성을 재귀적으로 촉진해야 합니다. 예를 들어, DeepMind 소재팀은 2023년에 딥러닝 기반 Graph Network for Materials Exploration(GNoME)을 출시했습니다. 테스트 과제에서 A-Lab 연구실은 예측된 58개 소재 중 41개를 17일 이내에 성공적으로 합성했는데, 이는 지난 10년, 혹은 그 이상 기간 동안만 가능했습니다.
원본 텍스트를 보려면 클릭하세요: 인류보다 800년 앞서? DeepMind, 딥러닝을 활용해 220만 개의 새로운 수정을 예측하는 GNoME 출시

마지막으로 홍량 교수는 제어된 핵융합을 위한 AI 등의 사례를 인용하며, 이 방향으로의 진전이 매우 만족스럽다고 말했습니다.그는 현재 핵융합의 주요 문제는 플라즈마가 매우 쉽게 "찢어지고" 그것을 가두는 강력한 자기장에서 빠져나와 핵융합 반응이 중단된다는 것이라고 지적했습니다. 프린스턴 연구팀은 플라즈마 파괴의 잠재적 위험을 300밀리초 전에 예측하고 적절한 시기에 개입할 수 있는 AI 컨트롤러를 개발했습니다.
원본 기사를 보려면 클릭하세요: 프린스턴 대학교, 플라스마 찢어짐 위험을 300밀리초 전에 예측하는 AI 컨트롤러 출시
아래 그림에서 보듯이, 연구자들은 기존의 물리학 기반 방법과 고급 AI 기술을 통합하여 플라즈마 행동에 대한 제어와 이해를 개선했습니다. 다음 그림 a, b, c는 핵융합로 내의 플라즈마 상태를 보여줍니다.

패널 a의 검은색 선은 외부 온도(예: 중성 입자 빔)를 높여서 플라즈마 압력을 증가시키면 결국 안정 한계에 도달한다는 것을 보여줍니다. 이 한계를 초과하면 찢어짐 불안정성이 발생합니다. 일단 찢어짐 불안정성이 자극되면 플라즈마는 빠르게 파괴되며, 이는 그림 b와 c에서 볼 수 있듯이 실제 작동 시 심각한 결과를 초래할 수 있습니다.
연구진은 심층 신경망과 강화 학습을 기반으로 플라즈마 상태의 변화에 실시간으로 대응하고, 플라즈마의 미래 상태를 예측하고, 제어 동작을 이에 따라 조정할 수 있는 지능형 제어 시스템을 개발했습니다. 이를 통해 토카막 작동이 이상적인 경로를 따르고 높은 압력을 유지하면서도 찢어짐 불안정성을 방지할 수 있습니다.
마지막으로 홍량 교수는 다음과 같이 강조했습니다."과학 분야에 AI를 적용하려면 먼저 과학적 문제를 정의한 다음 AI 솔루션을 제시해야 합니다."
생명공학을 위한 AI: 엔지니어링 문제 해결 및 다중 시나리오 제품 구현
이후 홍량 교수는 전통적인 단백질 공학의 정의와 과제, 단백질 공학 분야에서 AI의 응용, 팀의 R&D 성과와 구현, 팀의 핵심 장점 등을 설명하면서 생명공학에 있어 AI의 가치를 더욱 명확히 밝혔습니다.
단백질 엔지니어링: 제품 적용 요구 사항을 충족하기 위한 단백질 서열 부위 돌연변이
홍량 교수는 단백질 공학이란 단백질 서열에서 5~20개 부위를 돌연변이시켜 특정 특성을 최적화하고 산업과 의학에 응용하여 제품으로 만드는 것을 의미한다고 설명했습니다.
그는 단백질이 생물체의 중요한 구성 요소일 뿐만 아니라, 사람들의 일상생활에 없어서는 안 될 제품이라고 설명했습니다. 효소는 단백질 분자로서 산업 현장에서 널리 사용되며 촉매 효과가 있습니다. 예를 들어, 혁신적 의약품 분야의 항체 ADC 부위 결합 효소, 세탁 세제의 효소, 동물의 신진대사를 돕는 사료의 효소 첨가제, 그리고 미용, 식품, 생명공학 분야의 다양한 효소 등이 있습니다.

그 후, 홍량 교수는 현재 단백질 공학에서 가장 주류를 이루는 두 가지 실무 방법을 소개했습니다.
첫 번째는 합리적 설계/반합리적 설계입니다.일반적으로 단백질 구조와 촉매 작용 기전을 명확히 연구한 후, 해당 기전에 따라 변형을 실시하는 것이 필요하다. 그러나 합리적 설계의 단점은 시간이 많이 소요되고, 수정이 필요한 부위가 주로 활성 포켓 주변에 집중되어 있으며, 설계 범위가 비교적 제한적이고, 사고의 범위도 제한적이라는 점입니다.

두 번째는 방향적 진화입니다.즉, 인간의 사고 패러다임을 깨고, 고처리량 스크리닝, 야생형을 기반으로 한 고처리량 단일 부위 무작위 돌연변이 유발을 통해, 첫 번째 라운드에서 가장 좋은 단일 부위 돌연변이를 찾고, 두 번째 라운드에서 이를 기반으로 가장 좋은 이중 부위를 스크리닝하는 식으로 계속 진행하는 것입니다. 장점은 과거 경험에 의존하지 않고 돈만으로 할 수 있다는 것입니다. 이 방법의 단점은 비용이 많이 들고, 장기간의 스크리닝이 필요한 고처리량 표현형 스크리닝 방법을 구축해야 한다는 점이며, 고처리량 스크리닝 방법은 보편적이지 않고 확립하기 어렵다는 점입니다.
홍량 교수는 2016년 네이처에 발표된 연구 논문을 예로 들어 녹색 형광 단백질에 대한 실험을 소개했습니다. 그는 이 실험에서 고처리량 스크리닝을 통해 연구자들이 부위를 개별적으로 돌연변이시키면 양성 부위를 선택하고 단백질의 특성을 향상시킬 수 있지만, 여러 돌연변이 부위가 결합되면 합성 단백질이 활성을 잃게 된다고 지적했습니다.
그는 말했다,"광활한 위상 공간에서 우수한 돌연변이 부위를 찾아내고 이를 우수한 다중 부위 돌연변이체로 결합하여 응용 가치를 실현하는 것이 현재 단백질 공학이 직면한 과제입니다."

단백질 공학을 위한 일반 인공지능 기술: 엔드투엔드 기능 지향 서열 설계
"인공지능이 공학 분야에서 획기적인 발전을 이루고자 한다면, 단순히 과학자들을 위한 조수를 만들고 문헌 수집과 같은 기본적인 작업을 수행하는 것이 아니라, 인간 전문가가 할 수 없는 일을 하는 것입니다."이를 바탕으로 홍량 교수 연구팀은 2021년부터 단백질 공학 분야에서 독점적인 모델을 탐색하기 시작하여 기능적 시퀀스를 처음부터 끝까지 설계했습니다.
연구팀은 자연에 존재하는 모든 알려진 단백질을 기반으로 수억 개의 완전한 단백질 서열을 데이터베이스화하고, 이 데이터베이스를 기반으로 아미노산의 배열과 규칙을 학습하는 단백질 공학을 위한 일반 인공지능을 구축했습니다.

홍량 교수는 단백질 공학 분야에서 일반 인공지능 기술이 어떻게 적용되는지 5가지 실제 적용 사례를 통해 자세히 설명했습니다. 여기에는 상하이 기술 대학의 류지아 교수와 협력하여 크리스퍼 cas12a의 열 안정성을 개선한 사례, 진사이 제약과 협력하여 단일 도메인 항체의 알칼리 저항성을 개선한 사례, 한하이 뉴 엔자임과 협력하여 효소 혁신을 출시한 사례가 포함됩니다.
사례 1: Crisper cas12a의 열 안정성 향상
이 프로젝트는 Hong Liang 교수 팀과 상하이 기술 대학의 Liu Jia 교수에 의해 완료되었습니다. 크리스퍼 cas12a는 1,300개의 아미노산으로 구성되어 있습니다. 야생형은 활성은 좋으나 안정성이 낮습니다. 체외진단키트이기 때문에 실온에서 사용이 불가능하고 냉장비용이 높습니다. 이를 위해 연구팀은 세 차례의 실험을 수행했습니다. 결국 돌연변이체의 안정성은 지속적으로 증가하는 상태에 도달하였고, 야생형보다 낮지 않은 단백질 활성의 비율은 100%에 도달하였습니다.

홍량 교수님께서 소개해주셨습니다.단백질 공학 분야는 가장 부정적인 데이터를 많이 보유하고 있습니다. AI는 부정적인 데이터와 긍정적인 데이터를 결합하여 단백질 공학의 상상력을 확장할 수 있습니다. 이는 전문 효소 공학자들의 합리적인 설계 범위를 넘어섭니다. AI는 기본적으로 기존의 물리적 계산 방식을 대체했습니다.
그는 AI가 단백질 음성 및 양성 돌연변이 데이터를 결합하는 기본 논리를 추가로 소개했는데, 이는 세 단계로 나뉩니다.
첫 번째 단계는 단백질 언어 어휘를 구축하는 것입니다.그는 단백질 서열 정보를 사전 훈련하는 과정을 빈칸 채우기 테스트에 비유했습니다. 빈칸 채우기 테스트는 모델을 사용하여 수억 개의 완전한 단백질 서열이 있는 데이터베이스에서 임의의 서열을 연속적 또는 불연속적으로 무작위로 차단한 다음, 모델이 차단된 영역을 채울 수 있는 테스트입니다. 이 작업은 여러 라운드에 걸쳐 반복되어 모델이 수억 개의 단백질 서열을 사전 학습하고, 이를 통해 단백질 언어의 어휘를 구축할 수 있도록 보장합니다.
두 번째 단계는 라벨링입니다.연구팀은 온도, 압력, pH 등을 수천만 개에 태그로 표시했습니다.
세 번째 단계는 소규모 표본 학습입니다.즉, 소량의 습식 실험 데이터를 이용해 미세 조정을 수행하여 강화 학습을 완료함으로써 생명공학에서 발생하는 소량 표본 문제를 해결합니다.

사례 2: 진사이제약과 알칼리 내성이 매우 강한 단일 도메인 항체 개발 협력
홍량 교수는 진사이제약이 알파카 단일 도메인 항체 라이브러리에서 단일 도메인 항체를 스크리닝하여 수소 컬럼에 올려놓는 방법으로 성장 호르몬을 정제하는 경우가 많다고 지적했습니다. 그러나 정제 과정 중에 수소와 컬럼은 불가피하게 일부 불순물로 오염될 수 있으며, 다음 정제 실험에 사용하기 전에 강한 알칼리로 세척해야 합니다. 그러나 생물체는 강알칼리에 대한 저항성이 없으며 부식의 위험이 있습니다. 따라서 진사이제약은 단일 도메인 항체의 알칼리성 저항성을 개선하고자 합니다.
이와 관련하여,연구팀은 Pro 시리즈 대형 모델이 설계한 단일 도메인 항체를 0.5M NaOH로 24시간 처리하여 단일 도메인 항체의 알칼리 저항성을 성공적으로 향상시켰습니다.본 프로젝트에서 설계된 알칼리 저항성 단백질은 5,000L 대량 생산을 달성했습니다.산업화된 대형 모형을 이용해 만든 최초의 단백질 제품입니다.

사례 3: 효소 혁신을 통한 글리코실트랜스퍼라제의 선택성, 활성 및 수율 향상
급성 췌장염과 담낭염을 선별하는 핵심 물질은 말토헵타글리코사이드인데, 이는 구조가 매우 복잡하고 화학적 생산 비용이 높습니다. 중국에서는 1kg당 수십만 위안에 판매됩니다. 이에 대응하여, 홍량 교수의 팀과 한하이 뉴 엔자임은 글리코실트랜스퍼레이즈를 사용하여 말토헵타글리코사이드를 생산하는 효소 혁신을 공동으로 출시했습니다. 연구팀은 트랜스글리코실화 반응 향상, 반응 특이성 향상, 가수분해 활성 감소, 수율 증가 등 4가지 지표를 개선해야 합니다.
연구진은 두 차례의 형질전환 실험을 통해 80개 돌연변이체의 BUG 지수를 개선하고, 전체 트랜스글리코실화 활성을 8배 증가시키고, 표적 생성물의 순도를 80에서 95로 증가시키고, 가수분해 활성 지수를 10으로 낮추고, P3 수율을 두 배로 늘렸습니다.이 제품은 이미 후베이성 이창에 있는 1,000kg 생산라인에서 생산에 들어갔으며, 생산비용을 크게 절감했습니다.
사례 4: 단일 맹검 테스트에서 소규모 샘플 학습을 기반으로 한 항체 친화도 테스트
"과학을 위한 AI는 적은 양의 표본으로 인한 문제를 해결해야 합니다. 단순히 논문을 게재하는 것은 실질적인 효용이 거의 없습니다." 홍량 교수는 항체 제약 회사와 협력하여 완성한 데모를 통해 이를 자세히 설명했습니다.
홍량 교수는 이것이 총 아미노산 길이가 245개이고 돌연변이 부위가 21개 있는 ScFv 항체이며, 가능한 돌연변이 서열이 1,000만 개를 넘는다고 소개했습니다. 그러나 협력자는 알려진 돌연변이 33개에 대한 친화도 데이터와 알려지지 않은 것으로 예측되는 새로운 시퀀스 14개에 대한 친화도 데이터만 제공했습니다. 연구팀은 소규모 표본 학습을 바탕으로 단일맹검 검정에서 0.65의 상관 계수를 달성했습니다.
"생물의학이든 합성생물학이든 최종 구현에서는 여전히 비용 문제, 즉 수율이 높아야 한다는 문제를 해결해야 합니다."홍량 교수는 "팀의 AI 단백질 설계 모델은 자연으로부터 학습하며, 추천하는 돌연변이체의 수율은 그리 나쁘지 않을 것입니다. 그중 상당수가 야생형과 유사하며, 야생형보다 발현량이 높은 돌연변이체도 있습니다."라고 소개했습니다.

홍량 교수는 인간 뇌의 단백질 설계와 AI 단백질 설계 모델의 차이점에 대해 설명하면서, 주요 차이점은 인간은 경험을 요약하는 것을 좋아하지만 인간의 경험은 일반적으로 단백질 추출 순서와 저차원 구조적 특징과 같이 차원이 낮다는 점이라고 지적했다. 이러한 특성은 단백질 기능과 상관관계가 있지만, 단백질 기능을 결정하는 완벽한 요소는 아니며 정량적, 질적으로 예측하기 어렵습니다.AI 단백질 설계 모델은 고차원 특징을 활용하여 단백질의 서열과 구조를 설명하고, 표적 기능을 보다 정확하고 정량적이며 빠르게 예측할 수 있습니다.

사례 5: 새로운 단백질 서열 설계
이 문제를 더 잘 설명하기 위해 홍량 교수는 그의 연구 그룹인 Cell Discovery의 결과를 공유했습니다. 그는 이것이 6개의 도메인과 700개 이상의 아미노산을 가진 유전자 편집 효소인 드 노보 디자인을 통해 얻은 것으로 보고된 가장 큰 단백질 서열이라고 말했습니다.
자연에는 알려진 편집 효소가 600여 종뿐이며, 연구팀은 이를 템플릿으로 사용하여 27개의 새로운 시퀀스를 생성했습니다. 자연과 비교했을 때, 서열 유사성은 모두 65%보다 낮으며, 가장 낮은 것은 49%입니다. 즉, 연구팀은 700개가 넘는 아미노산 서열 중 300개 이상을 변형했는데, 그 중 23개가 활성이었고, 2/3가 야생형보다 활성이 더 높았으며, 가장 높은 것은 야생형의 8.6배에 달했습니다.
홍량 교수는 "AI 단백질 설계 모델은 좋은 활성과 높은 양성률을 유지하면서 300개 아미노산 서열을 변형할 수 있다"며, "AI는 이미 이러한 유형의 서열 생성 작업에서 인간 전문가를 훨씬 능가하고 있다"고 말했다.
또한 홍량 교수는 인공지능에 대한 자신의 이해를 공유했습니다."인공지능은 y에서 x로의 매핑입니다. 여기서 x는 입력 특성이고 y는 단백질의 안정성과 활성과 같은 원하는 결과입니다. 이제 인공지능은 고차원 피팅을 수행합니다."

AI 단백질 설계 대형 모델, 생산성 대폭 향상
홍량 교수는 연구팀이 구축한 AI 단백질 설계 모델을 시연하며 "연구자들이 내부 소프트웨어에 서열을 입력하면 플랫폼이 자연 법칙에 부합하는 30개 또는 50개의 서열을 선택하여 실험에 활용합니다. 이후 소규모 표본 학습 단계로 진입하여 연구자들이 요구하는 지표에 맞춰 AI 모델을 미세 조정합니다. 최종적으로 우성 돌연변이체가 생성됩니다."라고 설명했습니다.
현재 팀에서 단백질 설계에 주력하는 연구원은 생물의학 분야와 합성생물학 분야, 이렇게 두 명뿐이지만, 팀은 40개가 넘는 프로젝트를 동시에 진행하고 있다는 점도 언급할 가치가 있습니다.이는 또한 홍 교수가 말한 "AI가 기본 엔지니어링을 돌파할 수 있는 능력을 갖추게 되면 엄청난 생산성을 발휘할 수 있을 것"이라는 말을 확인시켜 줍니다.

우리는 많은 대학 및 기업과 긴밀한 협력을 맺고 있으며, 3가지 핵심 장점을 가지고 있습니다.
또한, 홍량 교수는 팀의 성과와 핵심 장점도 설명했습니다.
성과 측면에서 팀은 청화대학교, 상하이기술대학교 면역화학연구소 등의 대학/연구소와 진사이제약, 한하이뉴엔자임, 코닝젤 등의 기업과 심도 있는 협력을 진행했습니다.작년에는 20개의 단백질이 성공적으로 변형되어 유익한 결과를 얻었습니다.
홍량 교수는 팀의 장점에 대해 다음과 같이 말했다.이 팀은 "새로운 데이터, 독립적인 모델, 시장에 최초로 출시된 제품"이라는 세 가지 측면에서 핵심적인 이점을 가지고 있습니다.첫째, 이 팀은 공개 데이터 세트보다 훨씬 더 큰 완전한 단백질 서열 데이터를 보유하고 있습니다. 둘째, 팀은 독립적인 모델, 자체 구축된 단백질 어휘, 소표본 학습 방법, 시퀀스+구조 사전 학습 방법을 보유하고 있으며, 실험 정확도와 연구 속도가 세계 최고 수준입니다. 마침내, 이 팀은 전 세계적으로 다양한 단백질 제품의 실용화를 선도하게 되었습니다.

AI for Science 전망: 향후 3년 안에 AI 대규모 모델 자동화의 표준 설계 모드가 실현될 것입니다.
홍량 교수는 "향후 3년 안에 단백질 설계, 약물 개발, 질병 진단, 신규 표적 발견, 화학 합성 경로 설계, 소재 설계 등의 분야에서 전문 분야의 일반 인공지능이 명확한 패러다임 전환을 가져올 것"이라고 전망했습니다. 인간 두뇌의 산발적인 시행착오에 의존하던 과학적 발견 모델을 AI 대규모 모델 자동화 표준 설계 모델로 전환할 것입니다.

구체적인 변경 사항에는 제로 샘플 또는 소규모 샘플 학습 방법을 구축하고 사전 학습 기술 모델을 구축하는 것이 포함됩니다.데이터가 없는 경우, 물리적 시뮬레이터를 통해 정확도가 약간 낮은 대량의 가짜 데이터를 생성하여 사전 학습을 실시한 후, 실제 데이터와 가치 있는 데이터를 미세 조정하여 강화 학습을 완료합니다. 홍 교수는 "가짜 데이터란 현실 세계에서 온 것이 아니지만 어느 정도 신뢰성이 있는 데이터를 말합니다. AI로 생성하거나 데이터 보강을 위해 물리적 계산 시뮬레이션을 통해 얻을 수 있습니다. 마지막으로, 실제 습식 실험 데이터가 가장 가치 있으며 모델의 최종 미세 조정에 사용됩니다."라고 강조했습니다.
이 공유 세션을 마치며 홍량 교수는 AI 인문학도와 AI 이학도의 차이점을 다시 한번 요약했습니다. 그는 믿는다 AI 인문학 전공생은 본질적으로 인간의 삶과 일을 위한 개인 비서입니다.Kimi와 ChatGPT와 같은 기술은 사람들이 반복적인 창의적 작업이나 과학적이지 않은 작업을 줄이는 데 도움이 될 수 있습니다. 그 특징은 데이터가 크고, 정밀도 요구 사항이 낮고, 큰 노력으로 기적을 일으킬 수 있는 능력, 강력한 교차 도메인 일반화 능력이며, 대규모 교차 도메인 일반 모델을 구축하는 데 사용할 수 있다는 점입니다. 하지만 대기업에만 속해야 하며 대학과 연구 기관에는 적합하지 않습니다.
그리고 AI 과학을 전공하는 학생들은 일종의 과학적 또는 공학적 문제를 해결해야 합니다.기업과 과학 연구소의 과학자들의 R&D 두뇌를 대체하여, 매우 창의적인 일을 하고, 비용을 크게 절감하고 효율성을 높이며, 심지어 이전의 과학적 경험으로는 불가능했던 제품을 개발함으로써, 대학과 연구소의 팀은 고유한 전문적 장벽을 결합하여 관련 분야에서 AI 솔루션을 모색할 수 있습니다.

홍량 교수 소개
홍량 교수는 중국 과학기술대학에서 물리학과 학사 학위를 취득했고, 홍콩 중국대학에서 대학원 과정을 이수했습니다. 그의 연구 분야는 나노물질의 합성 및 특성화였습니다. 그는 미국 애크런 대학에서 박사학위를 받았는데, 그의 주요 연구 방향은 중합체/단백질의 물리화학적 특성, 동역학, 상전이였습니다.

2010년에홍량 교수는 미국 오크리지 국립연구소에 박사후 연구원으로 합류하여 계산생물학 분야에서 단백질 구조, 역학, 기능을 연구하고 있습니다. 2015년에홍량 교수는 상하이 교통대학에 독립 PI로 합류하여 분자 생물물리학 연구를 수행했습니다. 2020년에는홍량 교수는 AI, 컴퓨팅, 습식 실험을 결합하여 단백질 설계 연구를 수행합니다. 물리학에서 화학으로, 화학에서 생물학으로, 마지막으로 습식 실험에서 컴퓨팅과 인공지능으로의 전환은 전형적인 학제간 연구 배경이다.
홍량 교수 연구팀은 3년 만에 독자적으로 '서열부터 기능까지' AI 단백질 일반 인공지능 Pro 시리즈를 개발했다.: 대규모 모델의 사전 학습부터 기초가 되는 어휘 목록 탐색, 그리고 지도 학습 방법에 이르기까지, 우리는 단백질의 물리적, 화학적 특성 라벨에 대한 데이터베이스를 구축했고, 이를 바탕으로 소규모 샘플에 대한 미세 조정 방법을 개발했으며, 마지막으로 단백질 서열의 기능적 설계를 위한 인공지능 솔루션을 열었습니다.
관련 결과는 해당 연구 그룹의 홈페이지를 참조하세요.
https://ins.sjtu.edu.cn/people/lhong/papers.html
지금까지 홍량 교수가 이끄는 연구팀은 학계 및 산업계 파트너들과 풍부하고 심도 있는 교류와 협력을 진행해 왔습니다.여기에는 생물의학, 체외진단, 제약 중간체, 영양 및 건강관리, 식품 및 음료, 미용 및 피부 관리, 세탁 및 섬유, 바이오에너지, 생물농업, 환경공학 등 많은 분야가 포함됩니다.과학 연구 성과가 빠른 속도, 심지어는 미친 듯이 빠른 속도로 쏟아져 나오는 시대에도 그들은 여전히 "실용적인 연구를 한다"는 원래의 취지를 고수하고, 자신들이 말하는 것을 실천하며, 현실에 안주하지 않고 실험실에서 얻은 과학 연구 성과를 하나하나 생산 라인으로 가져오고 있습니다.
홍량 교수에 대한 자세한 내용은 다음 웹사이트를 방문하세요.
https://ins.sjtu.edu.cn/people/