HUST/상하이 AI 연구실/상하이 교통대학교 연구 선구자들이 공유하는 심도 있는 내용: 최근 성과, 주요 학회에 논문을 제출한 경험, 학제간 협업의 과제...

인공지능은 컴퓨터 과학, 수학, 통계학, 인지 과학 등 여러 학문을 통합하며, 그 발전은 학제간 인재의 양성에 크게 의존합니다. 최근 몇 년 동안 과학 분야에서 AI가 부상하면서 모든 사람이 인공지능과 기초 학문의 긴밀한 통합이 가져올 파괴적 잠재력을 확인하게 되었습니다. 오늘날 많은 뛰어난 학자들이 다양한 학문 분야에서의 배경을 바탕으로 과학 연구를 새로운 차원으로 끌어올리고 있습니다. 예를 들어:
* 화중과학기술대학의 황홍 부교수는 방송텔레비전 공학, 정보공학, 컴퓨터 과학 분야에서 학문적 경험을 가지고 있습니다.오늘날 그녀는 데이터 마이닝, 빅데이터 분석, 소셜 네트워크 분석 등 데이터 기반 과학 연구에 집중하고 있습니다.
* 상하이 인공지능연구소 AI과학센터의 청년 연구원인 저우동잔은 물리학에서 경력을 시작했습니다.인공지능 분야로 전향하여 현재는 재료과학에 AI를 적용하는 연구를 진행하고 있습니다.
* 상하이 교통대학교 자연과학연구소 조수 연구원인 주빙신(Zhou Bingxin)그녀는 학부 과정에서 금융을 전공했고, 석사 과정에서는 데이터 분석을 전공했으며, 박사 과정에서는 머신 러닝과 딥 러닝에 집중했습니다. 현재 그녀는 딥 러닝 알고리즘을 기반으로 단백질 설계 및 수정 등 생물학 분야의 문제를 해결하기 위해 딥 러닝을 활용하고 있습니다.
황홍: 우리의 연구는 실질적인 문제를 진정으로 해결할 수 있어야 합니다.
황홍 조교수는 화중과학기술대학교에서 준교수이자 박사/석사 학위 지도교수로 재직 중이며, 수년간 데이터 마이닝과 빅데이터 분석 분야에 깊이 관여해 왔으며, TKDE, TKDD, WWW, IJCAI, WSDM 등 세계 유수의 저널과 학회에 제1저자/교신저자로 많은 논문을 발표했습니다. 하지만 그녀의 과학 연구 여정은 순탄치 않았습니다.

황홍 부교수는 대학원 시절의 좌절스러운 경험을 회상하며, 논문을 28번이나 수정했다고 말했습니다. 그녀는 25번째로 수정했을 때 압도감을 느꼈습니다. 나중에 친구와 멘토의 격려로 그녀는 진정하고 논문을 다시 검토한 결과, 여전히 개선해야 할 세부 사항이 많다는 것을 발견했습니다. 마침내 그녀는 끊임없는 수정과 연마를 거쳐 성공적으로 출판하게 되었습니다.
황홍 부교수는 "과학 연구를 하는 데 있어 핵심은 논문의 아이디어가 특정 측면에서 실제로 문제를 해결할 수 있는지, 그리고 합리적인 연구 동기를 제시하는지 확인하는 것"이라고 말했습니다. 이 개념을 바탕으로,그녀의 연구는 두 가지 방향에 초점을 두고 있습니다. 첫째, 빅데이터 분석과 데이터 마이닝의 혁신적인 방법을 모색합니다. 둘째, 실질적인 사회 문제를 해결하기 위한 데이터 기반 애플리케이션을 개발합니다.
방법론적 혁신 분야에서 황홍 부교수의 팀은 주로 그래프 신경망과 복잡 시스템 모델링에 중점을 두고 있습니다. 그녀는 빅데이터 시대에 데이터의 가치를 보다 효과적으로 발굴하기 위해서는 그래프 구조를 사용하여 주변의 사물을 표현할 수 있다고 믿습니다. 즉, 사물을 노드로 추상적으로 모델링하고, 이러한 노드 간의 관계를 분석한 후 그래프 구조를 구축하는 것입니다.
또한 해당 팀은 소셜 네트워크 분석과 같은 데이터 기반 애플리케이션도 개발하고 있습니다. 2009년에서 2012년 사이에는 소셜 네트워크가 전성기를 맞았고, 웨이보, 트위터, 페이스북과 같은 플랫폼이 점차 등장했습니다. 이로 인해 황홍 부교수의 팀은 이러한 플랫폼의 데이터를 사용하여 네트워크 구조의 발전을 분석하고 사용자 추천, 여론 분석 및 기타 작업을 수행하게 되었습니다.
황홍 부교수는 "코로나19 팬데믹 기간 동안 우리는 국제 뉴스 매체의 중국에 대한 논평을 분석하고 해외 네트워크의 중국에 대한 태도 변화를 연구하여 외부 입장을 이해하는 데 필요한 데이터 지원을 제공했습니다."라고 말했습니다.
또 다른 흥미로운 사례 연구는 개인의 사회경제적 지위를 분석하고 이를 도시 계획에 활용하는 것입니다."우리는 통신부와 협력하여 사용자의 모바일 트래픽 로그 데이터를 수집하고, GPS 위치를 분석하여 사용자 활동 영역을 파악하고, 이를 해당 지역의 주택 가격 정보와 결합하여 도시 내 해당 지역의 수준을 추론합니다." 간단한 예를 들자면, 어떤 사람이 금융가에 자주 나타난다면 그 사람은 사회경제적 지위가 높다는 것을 의미할 수 있고, 반면 그 사람이 학교나 교육기관 근처에 자주 나타난다면 그 사람은 학생이나 교육자일 수 있습니다. 이를 바탕으로 연구자들은 개인의 사회경제적 지위를 종합적으로 평가하고 도시 계획에 대한 참고자료를 제공할 수 있다.
산업 지능 측면에서,황홍 부교수의 팀은 인공지능 기술을 사용하여 산업 장비의 결함을 자동으로 식별하고 진단하여 장비 유지 관리의 효율성과 정확성을 크게 향상시키고 있습니다.
황홍 부교수는 "당신은 하고 싶은 연구에 관심이 있어야 합니다."라고 결론지었습니다. 그녀의 의견에 따르면, 과학 연구는 본질적으로 큰 인내심을 필요로 하는 지루한 과정이지만, 그것에 진심으로 관심이 있다면 끈기 있게 노력할 수 있는 자기 동기가 생길 것입니다. "이것은 제가 학생을 모집할 때 가장 중요하게 생각하는 자질입니다."
주동잔: AI가 과학자처럼 새로운 아이디어를 창출하게 하세요
주동잔 박사 역시 황홍 부교수의 견해에 동의한다. "관심이 없다면 실제로 더 나은 일을 하는 것은 어렵습니다." 그녀의 의견으로는, 연구 방향을 선택하는 데 중요한 점은 해당 분야가 '인기'가 있는지 '핫'한지 판단하는 것이 아닙니다. 인기 있는 분야는 여전히 업계에서 모범적인 성과를 낼 수 있고, 틈새 시장에서는 새로운 문제를 발견할 수도 있습니다. 우리는 안전지대를 벗어나 획일적인 연구를 피하고, 더욱 견고한 결과를 도출하는 것을 선택해야 합니다.
현재 주동잔 박사의 연구 방향은 대규모 언어 모델, 다중 모드 모델 등의 AI 기술을 재료 과학에 적용하는 것입니다.주요 결과는 아래 그림과 같습니다.

지난 1월,상하이 인공지능 연구실은 "수성건위안(數性建衛園)"이라는 화학 분야의 대규모 언어 모델을 출시했습니다.일반적인 대형 모델과 전문 분야를 결합한 최첨단 주제를 살펴보세요. 화학 언어 모델은 많은 핵심적인 화학 작업(분자 및 반응 관련)에서 좋은 성과를 보이며, 많은 지표가 GPT-4를 능가합니다. 화학 연구에 있어서 외부 지식의 중요성을 고려할 때,이 팀은 언어 모델에 RAG(Retrieval Augmented Generation) 메커니즘을 추가했습니다.모델 환각 문제를 줄이기 위해. 화학 데이터 모달리티의 다양성을 고려하면,이 팀은 다중 모드 버전 모델을 더욱 발전시켰습니다.이 버전의 모델은 분자 인식과 다중 모드 화학적 추론에서 좋은 성능을 보이며, 많은 지표가 GPT-4v를 능가합니다. 모델에 과학적 도구를 사용하는 것의 중요성을 감안할 때,이 팀은 에이전트 툴킷을 개발했습니다.검색, 계산, 분자 및 반응을 포함하는 50개 이상의 화학 도구를 통합하여 모델이 관련 작업을 보다 효율적으로 수행할 수 있도록 합니다.
연구실 팀은 위의 연구를 바탕으로 AI가 대규모 언어 모델을 질의 응답 수준에 머무르지 않고 더 복잡한 작업을 수행하기를 원합니다. 그래서 연구팀은 AI가 과학자들처럼 새로운 과학 연구 가설을 생성할 수 있는지 알아보기 시작했습니다.

위 그림에서 보듯이, AI는 주어진 연구 배경과 문제를 바탕으로 자동으로 연구 가설을 생성하는 데 활용됩니다. 예를 들어, 특정 유형의 배터리를 연구하고 특정 속성을 충족하는 재료와 구성 요소를 찾으려는 경우 연구 맥락과 영감을 분리하고 MOOSE-CHEM 시스템과 내장된 다중 에이전트 작업을 결합하기만 하면 고품질의 과학적 아이디어를 창출할 수 있습니다.

과학적 가설을 수립하는 것은 단일 단계를 통해 직접 생성하기 어려운 복잡한 추론 과정이라는 것이 연구 결과 밝혀졌습니다. 따라서 연구팀은 과정을 분해하여 반복적으로 영감과 가설을 찾고, 생성된 가설을 더욱 탐색하여 최종적으로 형성된 과학적 가설이 더욱 견고하고 다양해지도록 했습니다.
동시에, 팀은 벤치마크 평가를 통해 생성된 과학적 가설도 구축했습니다. 아래 그림에서 볼 수 있듯이, 연구에 따르면 성능이 더 좋은 모델은 검색 기능도 더 강력합니다.

또한 이 연구는 전기화학 관련 과제에서 이 모델이 단순한 일반적인 개념이 아닌 실행 가능한 과학적 가설을 생성할 수 있다는 것을 확인했습니다. 예를 들어, 그 과학적 가설에는 현재 금속 루테늄, 질소 도핑 등과 같은 재료의 핵심 구성 요소가 포함됩니다.연구실 팀은 이미 관련 연구 그룹과 협력하여 이 시스템의 실용적 적용을 촉진하고 이를 진정한 과학 연구 지원 시스템으로 만들고자 노력하고 있습니다.

AI가 과학적 연구 아이디어를 생성하고 심지어 과학적 혁신을 촉진할 수 있도록 하는 것이 연구실 팀이 노력하는 목표입니다. 주동잔은 자신의 학문적 경험을 회고하면서, 자신의 과학적 연구 태도가 물리학자 우젠슝의 영향을 크게 받았다고 인정했습니다. "연구 결과의 편차는 아주 작은 세부적인 문제에서 비롯될 수 있습니다." 따라서 그녀는 과학 연구에서 획기적인 성과를 거두려면 세부 사항에 주의를 기울이고 심층적으로 생각하는 것이 중요하다고 늘 강조합니다.
주빙신: 자체 개발한 단백질 모델, 세계 권위 목록 1위 차지
모든 사람의 성장 궤적에는 공부, 직업, 심지어 인생 계획에 미묘한 영향을 미치는 "아이돌"이 있을 수 있습니다. 주빙신 박사는 자신의 "과학 연구 우상"에 대해 "제가 과학 연구를 하기로 선택한 이유는 주로 박사 과정 지도교수의 영향을 받았습니다."라고 소개했습니다. 주빙신의 인상에 따르면, 그녀의 박사과정 지도교수는 매우 책임감이 강하고, 진지하고, 인내심이 많고, 접근하기 쉬운 사람이며, 학생들의 메시지에 몇 초 안에 답장합니다. 그는 심지어 그녀가 코드 단어를 하나하나 수정하도록 돕고, 수식 도출 과정을 줄마다 확인했습니다. "저는 미래에 제 멘토처럼 학생들의 교육을 매우 중요한 일로 여길 수 있기를 바랍니다."
저우빙신은 과학 연구의 방향을 선택하는 데 있어서 단 하나의 "올바른 길"은 없다고 생각합니다. 중요한 것은 자신에게 가장 적합한 길을 찾아 고수하는 것입니다. "무엇을 하고 싶은지, 그리고 당신의 위험 감수 능력에 따라 달라집니다. 만족한다면, 맹목적으로 트렌드를 따를 필요는 없습니다."
저우빙신은 또한 최근 몇 년간 팀의 연구 내용 중 일부를 공유했는데, 특히 단백질 변형 분야에서 AI를 탐구한 내용이 포함되었습니다.
산업계에서 효소는 약물 개발, 질병 모니터링, 플라스틱 분해 등 다양한 분야에 활용됩니다. 그러나 천연 단백질은 자연에서 유래하며 고유한 생활 환경(고압, 고온 등)을 가지고 있어 산업적 요구를 충족시키지 못할 수 있습니다. 따라서 촉매 활성, 열 안정성, 결합 친화성 및 기질 선택성을 개선하기 위해 이러한 물질을 변형할 필요가 있습니다.

최근 몇 년 동안 인공지능을 이용한 단백질 설계가 점차 등장하고 있습니다.아래 그림에서 보듯이, 간단히 말해서, 자기 지도 모델은 먼저 대량의 단백질 데이터(서열, 구조, 진화 정보)를 학습한 다음, 하위 작업(단백질 활성 예측)과 관련된 소량의 레이블이 지정된 데이터 세트를 사용하여 예측 모델을 학습합니다. 특정한 필요(활동성 향상)에 따라 단백질의 구조나 서열이 재최적화되거나 완전히 설계됩니다.

단백질 서열이 수정되면 생물학팀이 발현하고 정제할 수 있도록 대장균이나 효모와 같은 발현 시스템에 형질전환시킬 수 있습니다. 정제된 단백질은 활성, 안정성, 결합 친화도와 같은 생화학적 특성을 테스트하는데, 이는 단백질의 특정 응용 분야에 따라 달라집니다. 알고리즘은 또한 주어진 단백질의 발현성, 용해도 및 활성을 예측하는 것과 같은 이 과정에 도움을 줄 수 있습니다. 마지막으로, 알고리즘이 추천하는 단백질 서열만 실험에 사용하면 되므로 비용을 더욱 절감할 수 있습니다.

아래 그림과 같이,저우빙신 팀의 연구는 단백질 구조로부터 서열을 추론하고, 기능으로부터 서열을 추론하는 것을 포함하되 이에 국한되지 않는 다양한 단백질 공학 모듈에 초점을 맞추고 있습니다."저희는 자체 도구를 개발하고, 이 도구를 후속 생물학 실험과 결합하여 완전한 사이클을 형성하는 방법을 모색하여 건조 실험(계산 시뮬레이션)과 습식 실험(실제 생물학 실험) 간의 반복적 최적화를 달성하고자 합니다."

지금까지 이 팀이 개발한 도구는 건조 및 습식 실험에서 모두 우수한 결과를 얻었습니다.예를 들어, 세계적으로 권위 있는 목록인 ProteinGym에서 해당 모델의 순위가 각각 1위와 2위를 차지했습니다.

또한, 연구팀이 개발한 성장호르몬은세계 최초로 AI가 설계한 단백질을 대규모로 생산(5,000리터)했습니다.또한, 그들은 EPS-G7 효소를 성공적으로 변형하여 특이성과 촉매 활성을 개선하고, 90%만큼 생산 비용을 절감하여 수입 독점 제한을 깨뜨렸습니다.

단일 지점이나 몇 개의 지점의 변환 외에도,그들은 또한 전체 단백질 서열을 생성했습니다.예를 들어, 핵산 전단에 사용되는 Ago 시리즈 단백질(고온 생존성)은 실온에서 양호한 활성을 유지할 수 있도록 변형되어 핵산 검사 키트에서 전단 작업에 적합합니다.

AI 실무자와 과학 실무자 간의 가장 큰 문제는 의사소통입니다.
주빙신 박사의 분야가 고도로 학제적이라는 점은 언급할 가치가 있습니다. AI 실무자와 과학 실무자 간의 소통을 촉진하기 위해 그의 팀은 방대한 양의 데이터, 도구 및 다운스트림 작업 감지 모듈을 수집했습니다.그리고 이를 VenusFactory라는 도구 라이브러리에 통합했습니다.

저우빙신 박사의 견해에 따르면, AI와 과학의 협업에는 의사소통 능력이 매우 중요합니다. "제가 생물학 분야에서 학제간 연구를 처음 시작했을 때, 많은 생물학 파트너들이 저희와 함께 일하고 싶어 했지만, 저는 그들이 무슨 말을 하는지 이해하지 못했습니다. 이제는 제가 이해한 바를 바탕으로 그들이 제기하는 과학적 문제를 공학적 문제로 변환하고, 그에 맞는 알고리즘을 찾아 해결할 수 있습니다."
주동잔 박사도 이러한 견해에 동의합니다. 그녀는 "대학, 연구소 또는 기업과 협력할 때는 양측 모두가 같은 수준에서 문제를 이해하도록 하는 것이 중요합니다. 과학 분야 파트너들이 AI 기술의 현재 상황을 이해하고, 기술팀이 가장 중요한 문제가 무엇인지 이해할 수 있도록 해야 합니다."라고 강조했습니다.
황홍 부교수는 학제간 협업에서 기본 지식을 습득하는 것이 매우 중요하다고 덧붙였다. 그녀는 청화대학교 사회학과의 뤄 지아더 교수 팀과의 협업을 회상했습니다. 초기 단계에서는 사회학 팀이 연구 질문을 제안하고, 기술 팀은 데이터 분석 지원을 제공하고 실험 설계를 담당했습니다. 시간이 지나면서 기술팀은 점차 사회학의 기본 지식을 습득하였고, 독립적으로 질문을 제기하고 사회학팀과 논의하기 시작했습니다. 이런 아이디어의 충돌로 인해 많은 연구 결과가 나왔습니다.
ICLR 2025를 비롯한 주요 컨퍼런스에서 최근 결과가 발표되고 있으며, 아직 마감일을 맞이하지 않은 중요한 컨퍼런스도 여러 개 있습니다.또한, 이 기회를 빌려 교사들이 아래와 같이 주요 AI 컨퍼런스에 논문을 제출한 경험을 공유할 수 있도록 했습니다.
1. 논문 모집 공고를 주의 깊게 읽어보세요.다양한 주요 학회에서 논문을 제출하기 위한 요구 사항을 명확히 하여 제출 기회를 놓치지 않도록 합니다.
2. 기사의 세부 사항에 주의하세요.형식은 정확해야 하고, 그림은 선명해야 하며, 레이아웃은 좋아야 합니다.
3. 제출 마감일을 명확히 하세요.모든 실험은 논문의 완전성을 보장하고 심사자의 질문 여지를 줄이기 위해 최소한 1주일 전에 완료되어야 합니다.
4. 연구 질문,기사의 아이디어가 실제로 특정 문제를 해결하는지 여부 연구 동기가 합리적인지 여부.
5. 논문 작성에 대한 조언
* 제안된 논문 개요: 먼저 배경을 소개합니다. 둘째, 이전 연구들은 어떤 내용이었으며, 어떤 문제점이 있었는가? 셋째, 우리의 일은 무엇인가? 우리는 귀하의 아이디어가 검토자에게 전달되어 검토자가 확신을 갖도록 보장합니다.
* 또한, 논문의 논리성을 확보하기 위해 각 연구 질문과 그에 따른 실험 검증은 서로 연결되고 일관성이 있어야 합니다.
6. 거절에 관하여:원고가 거절되는 것은 정상적인 일입니다. 리뷰어마다 선호도가 다릅니다. 몇 번 더 제출해보세요.