컴퓨터 비전에서 의료 AI까지, 상하이 교통대학교의 셰 웨이디와의 대화: 문제 정의가 해결보다 더 중요하다

전설적인 "종말의 해"였던 2012년, 모바일 인터넷은 폭발적인 성장기를 맞이했습니다. 3G 네트워크의 대중화와 스마트폰 가격의 하락, 그리고 WeChat과 MiTalk으로 대표되는 커뮤니케이션 애플리케이션과 전자상거래, 결제 애플리케이션의 급속한 성장에 힘입어 이 분야는 새로운 성장 궤도에 올랐습니다. 다양한 혁신적 응용 분야의 기반으로서 통신 산업은 유망한 발전 전망을 가지고 있습니다.
"당시 제가 이해하기로는 통신 기술은 이미 매우 성숙했고, 중국은 기술 면에서 세계 선두에 있었습니다. 국가 간 주요 분쟁은 통신 프로토콜에 관한 것이었는데, 이는 기술적인 범위를 넘어섰습니다."라고 베이징 우편통신대학교에서 4년간의 학사 과정을 마친 셰 웨이디는 말했습니다. 인생의 갈림길에 선 그는 솔직하게 이렇게 고백했습니다. "전공이 정말 마음에 들지 않았어요. 물론 제대로 이해하지 못했을 가능성도 있죠."
그 직후 그는 해외 유학을 선택하고 진로를 바꾸었습니다. 그는 런던대학교(UCL)와 옥스퍼드대학교에서 석사, 박사, 박사후 과정을 이수했으며 컴퓨터 비전 분야에서 연구했습니다. 2022년 중국으로 돌아와 상하이 교통대학에 합류하여 컴퓨터 비전 분야에서 축적한 지식을 의료 인공지능에 적용해 새로운 전장을 개척하고자 노력했습니다.
셰웨이디 교수의 통신에서 컴퓨터 비전으로의 두 가지 전환, 컴퓨터 비전에서 의료 인공지능으로의 두 가지 전환도 중요한 두 가지 노드라고 할 수 있습니다. 의사결정의 주저함, 새로운 분야에 도전하는 과정에서의 어려움, 결과가 나온 뒤의 성취감 등이 그의 이력서에서 두드러지게 드러납니다.
최근 HyperAI는 셰 웨이디 교수와 심층 인터뷰를 진행하는 영광을 얻었습니다. 그는 자신의 개인적인 경험을 바탕으로 컴퓨터 비전에서 헬스케어용 AI로 전환하는 데 대한 경험을 우리와 공유했고, 또한 업계의 발전 추세에 대한 심층적인 분석도 했습니다.
일반 의료 AI 시스템은 "지능 출현"을 생성할 수 있습니다.
"많은 사람들은 특정 질병 진단 및 치료 모델이 분명히 더 실용적일 때, 왜 제가 일반적인 의료 인공지능 시스템을 개발하고 싶어하는지 이해하지 못합니다." 오늘날 대형 모델이 모든 계층에 힘을 실어주면서, 특수 목적의 제품을 사용할 것인지, 아니면 범용 제품을 사용할 것인지에 대한 질문은 항상 업계의 주요 논의 주제가 되어 왔습니다. 전문화된 모델은 특정 분야에서 더 높은 정확도와 실용성을 보일 수 있지만, 일반화 능력은 제한적입니다. 일반 모델에 대한 광범위한 지식은 다양한 분야를 연결할 수 있지만, 특정 분야에서의 역량은 독점 모델만큼 뛰어나지 않은 경우가 많습니다.
셰웨이디는 전문 모델과 일반 모델 모두 장단점이 있다고 보고 있지만, "일반 의료 AI 시스템을 개발하는 것은 우리가 반드시 해야 할 일"이라고 말했습니다. 그는 믿는다보편성이란 이 모델이 다양한 양식의 데이터 간에 숨겨진 연결을 확립하여 질병 진단, 특히 원인이 불분명한 질병에 필수적인 소위 "지능의 출현"을 생성할 수 있음을 의미합니다.예를 들어, 폐렴 A와 폐렴 B의 분류 문제의 경우, 이미지와 텍스트를 학습에 사용하면 이러한 다중 모드 데이터를 최하위 계층에서 직렬로 연결하여 두 폐렴 증상 간의 유사점과 차이점을 식별하고 분류 목적을 달성할 수 있습니다. 하지만 이미지만을 사용해서 학습할 경우, 네트워크는 이러한 관계를 학습하지 못할 수도 있습니다. "그래서 과학적 발견의 관점에서 볼 때, 보편적 모델은 매우 큰 가치를 갖습니다."
다중모달 보편적 의료 모델을 구축하려면 가능한 한 포괄적으로 의학 지식을 주입해야 합니다. 하지만 의료 분야의 데이터는 윤리, 안전, 품질 등 여러 요소의 영향을 받으며, 일반적으로 데이터를 확보하고 활용하는 것이 어렵습니다. 이러한 과제를 해결하기 위해셰 웨이디는 컴퓨터 비전에서 데이터 수집 방법을 의료 분야로 이전하기로 결정했습니다. 즉, 인터넷에서 데이터를 크롤링하는 것입니다."물론, 이 방법으로 학습된 대규모 모델을 임상적으로 사용할 수는 없지만, 더 나은 인재를 양성하고 데이터 수집, 구성, 정리 등 빅데이터를 처리하는 팀의 역량을 훈련할 수 있습니다."
예를 들어, 이 팀은 3만 권 이상의 의학 서적을 수집하고, PubMed Central에서 400만 개의 의학 논문을 크롤링하고, 인터넷에서 중국어, 영어, 러시아어, 일본어 등 8개 언어로 된 의학 논문과 서적을 수집하여 언어 모델을 훈련하는 데 사용할 수 있는 코퍼스로 변환했습니다.

더 나아가, 우리는 인터넷에 공개적으로 제공된 이미지-텍스트 데이터를 마이닝하여 25만 개가 넘는 3D 스캔과 100만 개가 넘는 2D 의학 논문 이미지를 모았습니다. 또한, 연구팀은 일반적인 분할 모델을 훈련하기 위해 시중에 공개된 120여 개의 방사선 영상 분할 데이터 세트를 표준화했습니다. 여기에는 MR, CT, PET 등 다양한 일반적인 방사선 영상 방식을 포괄하는 30,000개 이상의 2D/3D 영상과 수백만 개의 픽셀 수준 주석이 포함됩니다.연구팀은 의료 AI 연구에서 의료 데이터 세트의 중요한 역할을 알고 있으며, 확보한 대부분의 데이터 세트를 오픈 소스로 공개할 예정입니다.
연구팀은 보편적인 모델을 구축할 때 이미지, 텍스트, 유전체학, ECG 신호 등을 포함한 획득한 모든 다중 모드 데이터를 공동으로 훈련하고, 이미지에 대한 병변 국소화, 텍스트 수준 진단 및 보고를 가장 기본적인 출력 형태로 활용하고자 합니다. 훈련 중,의학적 지식을 내장하는 것도 일반적인 기능을 실현하는 데 필수적인 부분입니다."병원 내 여러 부서의 업무가 서로 다르고, 의사들이 자신의 업무에 더 집중하는 경향이 있기 때문입니다. 보편적인 모델이 모든 검사 정보를 포괄하고, 업무 처리 시 단계별 사고 체계를 형성하며, 감별 진단과 같은 업무를 완벽하게 수행할 수 있기를 바랍니다."라고 셰 웨이디는 소개했습니다.

멘토가 '무관심'할 때, 조용히 힘을 모아라
앞서 언급했듯이, 셰웨이디는 일반 의료 AI 시스템을 개발할 때 컴퓨터 비전 방법을 의료 분야에 적용했습니다. 이는 다음과 같은 이유 때문입니다.이전에 그는 약 10년 동안 컴퓨터 비전 연구에 참여하여 심오한 지식을 축적했습니다.하지만 그가 처음에 이 전공을 선택한 것은 우연이었습니다.
셰 웨이디는 학부생 시절 베이징 우편대학에서 공부했습니다. "커뮤니케이션에 관심이 없어서 학부 성적이 너무 나빴어요. 취업이 안 될까 봐 걱정돼서 유학을 선택했죠." 그는 미소를 지으며 말했다.
2012년 셰 웨이디는 컴퓨터 비전 분야 석사 학위를 취득하기 위해 런던대학교에 입학했습니다. 이번에는 그가 관심 있는 방향을 찾았고 공부를 매우 진지하게 시작했습니다. "제 지도교수는 제가 이 분야에서 과학 연구를 하는 데 매우 적합하다고 생각하셨고, 박사 학위를 취득하라고 제안하셨습니다." 당시 그가 직면한 문제는 영국에는 박사 학위 장학금이 거의 없었기 때문에 학업을 계속하기 위해 자비로 박사 학위를 취득할 것인지 여부였습니다. "제 지도교수님께서 옥스퍼드 대학을 추천해 주셨기 때문에 제가 직접 비용을 지불해야 하더라도 투자 가치가 더 클 것 같아요."
다행히도 2014년에 딥마인드는 알파고 프로젝트를 더 효과적으로 홍보하기 위해 AI 분야의 인재 교육을 늘리기로 결정하고 옥스퍼드 대학과 협력하여 장학금을 제공하기로 했습니다. 셰 웨이디는 옥스포드-구글 딥마인드 최초의 전액 장학금 수혜자가 되었습니다.딥마인드에서 지원한 약 100만 위안 규모의 장학금 덕분에 재정적 어려움은 적시에 해결됐지만, 실제로 그가 직면한 문제는 두 명의 멘토의 방임주의적 태도 때문에 졸업이 거의 불가능할 뻔했다는 점이었다.
박사 학위를 준비할 때 두 분의 든든한 멘토가 계셨습니다. 한 분은 컴퓨터 비전 분야의 앤드류 지서먼 교수님이셨는데, 왕립학회 회원이시자 컴퓨터 비전 분야의 선구자 중 한 명으로 여겨지십니다. 다른 한 분은 의료 영상 분야를 연구하시고 왕립학회와 공학 아카데미 회원이신 J 앨리슨 노블 교수님이셨습니다. 당시 두 분 모두 제가 서로의 연구에 더 깊이 관여할 수 있을 거라고 생각하셨는데, 그 때문에 저는 딜레마에 빠졌습니다. 셰 웨이디가 당시 있었던 옥스퍼드 대학교의 시각 기하 그룹(VGG)은 합성곱 신경망 VGGNet을 개발한 공로로 많은 주목을 받았습니다. 이 그룹의 회원들은 일반적으로 국제 학계에서 매우 높은 평판을 누리고 있었습니다. 그는 급속도로 발전하는 동료들과의 격차에 대처해야 했을 뿐만 아니라, 끊임없이 새로운 연구 주제를 탐구해야 했습니다.
알파고의 영향으로 딥러닝이 당시 큰 인기를 끌었고, 셰웨이디 역시 생성 모델에 큰 관심을 갖게 되었습니다. 하지만 그의 멘토인 앤드류 지서먼 교수는 "인기 없지만 더 가치 있는" 연구를 하는 것을 선호했습니다. "주간 회의 때 반 친구들은 AZ에 주간 업무 진행 상황을 보고할 수 있지만, 저는 보통 서류 더미를 가지고 회의에 들어가서 읽어야 할 새로운 서류 더미를 가지고 나옵니다." 동시에 영국에서는 의료 영상 데이터에 대한 엄격한 통제가 이루어졌기 때문에 그는 데이터 없이는 연구를 수행할 수 없었고, 다른 멘토인 J 앨리슨 노블로부터 피드백을 받을 수도 없었습니다. 졸업하기 1년 전까지 저는 워크숍 논문을 단 한 편만 발표했고, 두 명의 지도교수님께 이렇게 계속하면 졸업을 못할지도 모른다고 피드백을 드렸습니다.
속담에 "불행은 변장한 축복일 수도 있다"고 합니다. 선택된 주제 중 많은 부분이 강사에 의해 거부되어 구현이 불가능했기 때문에,그는 여가 시간에는 그 시대의 컴퓨터 비전 분야 논문을 거의 다 읽었습니다. 이러한 축적은 그의 미래 과학 연구를 위한 튼튼한 기초를 마련해 주었습니다.그는 이렇게 말했습니다. "저는 당시 강사님이 주제를 정해 주시면 며칠 안에 끝낼 수 있을 거라고 생각했습니다."
2018년, 셰 웨이디는 두 명의 멘토의 지원을 받아 컴퓨터 비전, 의료 영상 등 분야에서 논문 7편을 발표하고 성공적으로 졸업했습니다. AZ는 또한 그의 강점을 인정하여 그가 2022년 중국으로 돌아올 때까지 컴퓨터 비전 연구를 전문으로 하는 박사후 과정을 계속하도록 초대했습니다.

컴퓨터 비전과 의학의 가장 중요한 차이점은 지식입니다.
셰웨이디를 포함해 수많은 사람들이 가정과 일의 균형에 어려움을 겪고 있습니다."중국으로 돌아가기로 한 결정은 갑작스러웠습니다. 옥스퍼드에 남아 조교수 제안을 받았지만, 그곳의 환경이 심도 있는 연구를 계속하기에는 적합하지 않다는 것을 점차 깨달았습니다. 게다가 갓 아빠가 된 저에게는 당시 가족을 부양할 재정적 여력과 에너지가 부족했습니다."
내 생각에는,셰웨이디는 독특하고 개성 있는 성격을 가지고 있습니다. 그는 과학 연구에서 중요하게 여겨지는 겸손과 실용주의 외에도 대담하고 결단력이 있는 인물이기도 합니다.그는 중국으로 돌아가기로 결심하자마자 곧바로 국내 대학에 연락했다. 그는 "뛰어난 해외 청년 학자"나 "3개 대학의 가격 비교"와 같은 타이틀은 고려하지 않았습니다. 그는 상하이 교통대학에만 이력서를 보냈고, 성공적으로 취업했습니다.

흥미로운 점은 상하이 교통대학의 장야 교수가 신입사원 채용 과정에서 "인사" 역할을 맡았고, 그가 장야 교수를 알게 된 것은 출판된 학술지 기사를 통해서였습니다. "2018년에 장야 교수님과 학생들이 제가 발표한 의료 영상 관련 논문을 재현하고 싶어서 위챗에 저를 추가했습니다." 이 기회가 그가 나중에 중국으로 돌아가는 길을 열어주었습니다. 그는 장야 선생님께 이력서를 보낸 후 곧 답장을 받았습니다. "다행히도 학교 측에서 전체 과정을 빠르게 진행했습니다."
그는 상하이 교통대학에 입학한 후 원래의 컴퓨터 비전 연구를 계속하는 것과 더불어 의료 인공지능 분야를 탐구하기 시작했습니다."그 당시 저는 AI for Science 연구에 도전해 보고 싶었습니다. 의료 분야에 대한 경험이 많고 관심이 많았기 때문에 이 방향을 선택하게 되었습니다."
2022년 ChatGPT가 출시되었을 때 셰 웨이디는 당시 매우 인기가 많았던 의료 영상 입력을 포기하고 언어부터 시작하기로 결정했다는 점도 언급할 가치가 있습니다. "제 생각에 의학과 컴퓨터 비전의 가장 근본적인 차이점은 지식입니다. 의학은 증거를 찾는 데 더 중점을 두고 체계적이고 표준화된 지식을 가지고 있지만, 시각적 영역에서 의료 이미지 모델에 지식을 내장하는 것은 어렵습니다."그의 비전에 따르면, 팀은 의학적 지식을 언어 모델에 내장한 다음 시각적 모델을 언어 모델과 정렬하여 의학적 지식을 시각적 모델로 전달할 수 있습니다.
저자는 이것이 아마도 앤드류 지서먼 교수의 영향을 받았을 것이라고 생각합니다.셰웨이디에게서 우리는 과학 연구에 대한 그의 예리한 직관을 깊이 느낄 수 있습니다.그는 자신의 멘토에 대해 이렇게 말했습니다. "AZ의 주제 대부분은 단기적인 인기 분야를 쫓지 않고, 장기적인 가치에 초점을 맞춥니다." 예를 들어, 시각 언어 모델인 PMC-CLIP을 개발할 때 많은 연구가 처음으로 수행되었기 때문에 팀의 학생들은 프로젝트의 중요성을 완전히 이해할 수 없었습니다. 왜 인터넷에 있는 모든 논문을 크롤링해야 했습니까? 모델을 훈련하기 위해 이미지와 주석을 추출하는 이유... "논문을 제출했을 때조차 MICCAI는 거의 거부할 뻔했습니다."
그러나 얼마 지나지 않아 시각 언어 모델이 갑자기 인기를 끌게 되었고, PMC-CLIP 모델도 MICCAI의 "젊은 과학자 출판 영향력 상, 최종 목록"으로 평가되어 그 성과도 인정받았습니다. 처음에는 이 연구의 유용성을 학생들에게 납득시키는 데 어려움을 느꼈습니다. 어쩌면 제가 선택한 주제가 나중에 모두가 관심을 가질 만한 주제였기에 운이 좋았던 걸지도 모릅니다.
인터뷰 중에 셰웨이디 교수는 여러 번 "행운"에 대해 언급했습니다. 옥스퍼드 대학에 입학한 것은 행운이었습니다. 옥스포드-구글 딥마인드 장학금을 최초로 받은 사람 중 한 명이 된 것은 행운이었습니다. 중국으로 돌아와 상하이 교통대학에 취업한 것은 행운이었다. 연구 방향과 기술적 경로의 선택 역시 운이었다... 하지만 제 생각에는 대부분의 운은 근거 없는 것이 아니다. 어쩌면 이전 행동을 예고한 것일 수도 있고, 아니면 시간이 지나면서 축적된 힘이 그 순간에 올바른 선택을 하도록 촉진한 것일 수도 있다.
문제를 정의하는 것이 해결하는 것보다 더 중요합니다
셰웨이디는 "자기가 선택한 주제가 나중에 모든 사람이 관심을 갖는 주제가 되어서 다행이었다"고 느낀 적이 있다고 합니다. 하지만 저는 연구 주제의 선택이 이 분야에 대한 팀 리더의 독특한 관찰을 반영한다고 믿으며, 셰웨이디는 이를 "정의 문제"라고 불렀습니다. 그의 의견으로는,문제를 정의하는 것은 문제를 해결하는 것보다 더 중요합니다. 의미 있는 문제가 정의되면 수많은 사람들이 이를 추적하여 해결할 것입니다.그러므로 우리는 이 단계에서 모델이 해결하는 데 가장 가치가 있는 문제가 무엇인지 생각해 볼 필요가 있습니다. 이건 매우 중요해요.
더욱이 우리가 문제를 해결할 때 '인재-데이터-컴퓨팅 파워'는 필수적입니다.
현재 AI4S의 개발은 아직 초기 단계에 있습니다. AI 실무자는 모델 구축과 프레임워크 최적화에 더 많은 이점을 가지고 있는 반면, 과학 실무자는 수직적 분야에서 과학적 문제를 정확하게 찾아내는 데 더 능숙합니다. 양측은 모두 보편적 협력 모델을 모색해 왔습니다. 이에 셰웨이디 연구팀은 상하이 교통대학교 의대의 많은 교사와 학생들과 협력하여 의학 분야의 전문 지식을 최대한 활용하고, 그들이 컨설턴트 역할을 하도록 하여 연구 방향이 실제적인 의학적 가치가 있는지 팀이 판단하도록 했습니다. 또한, 그들은 샘플링된 데이터의 품질을 담당하고 데이터가 90% 이상에 도달할 만큼 깨끗한지 확인하는 "품질 검사원" 역할도 수행합니다.
동시에 팀 빌딩이 점차 향상되면서 학생들은 웹 데이터 크롤링 기술을 습득하게 되었습니다. 그들이 직면한 다음 문제는 인터넷 데이터 자원이 고갈 직전이라는 것입니다. 이를 위해 연구팀은 병원과 협력해 더 높은 품질의 의료 데이터를 확보하고, 해당 모델을 구현하고자 노력할 예정이다. Xie Weidi는 다음과 같이 강조했습니다."지식 중심" 또는 "데이터 및 지식 중심"은 단순히 "데이터 중심"보다 더 중요합니다.따라서 팀은 의학적 지식을 핵심으로 삼고 팀원들과 협력하여 더욱 실용적인 문제를 해결하기를 희망합니다.
의료 AI의 설명 가능성은 오랫동안 의사들의 주요 관심사였다는 점을 언급할 가치가 있습니다. 이와 관련하여 Xie Weidi는 다음과 같이 믿습니다.AI가 진단 정확도 면에서 최고 의사를 능가할 만큼 강력해진다면 설명 가능성은 더 이상 문제가 되지 않을 것입니다.예를 들어, 구글이 출시한 Med-PaLM 2 모델은 USMLE 의료 자격 시험에서 86.5라는 높은 점수를 달성했습니다. 또한, 해당 팀은 의료용 대규모 언어 모델인 PMC-LLaMA, MMed-LLaMA, 시각 언어 모델인 MedVInT, RadFM, 일반 분할 모델인 SAT 등을 연이어 출시했습니다. 많은 모델이 업계의 기준선으로 간주되어 NPJ Digital Medicine, Nature Communications, ICCV, ECCV, NeurIPS, MICCAI 등 유명 저널/주요 컨퍼런스에 게재되었습니다. 이러한 결과의 반복 속도는 의사들의 AI에 대한 관점을 점차 변화시키고 있으며, 앞으로 고품질의 협력 관계 구축이 기대됩니다.
컴퓨팅 리소스와 재정 지원 측면에서도 상하이 교통대학은 팀의 예비 연구와 결과의 미래 전환을 위해 전면적인 지원을 제공했습니다. 대학 내 다양한 팀에서도 적극적으로 협력 기회를 모색하고 있으며, 학문적 분위기도 강합니다.
귀중한 연구를 하세요
셰 웨이디 교수와 소통하는 동안 그는 가치 있는 연구를 하고 싶다는 바람을 여러 번 언급했습니다.그의 의견에 따르면, 이 팀의 이전 연구는 단지 "학계의 장난감 프로토타입"으로 간주될 수 있으며, 이 작은 모델을 최종적으로 구현하려면 더욱 확장해야 합니다. 그는 이러한 프로토타입이 다른 연구자와 업계에 참고 자료를 제공하여 모든 사람에게 필요한 데이터 종류, 데이터 처리 방법, 모델 구축 및 훈련 방법, 지침 설정 방법 등을 알려주기를 바랍니다.
앞으로 연구팀은 의사들이 관심을 갖는 100개 이상의 업무에 대한 교육을 통합하기 위해 임상 지향적인 슈퍼 지침을 구축하고, 이를 통해 모델이 실제 임상적 요구 사항을 해결하는 데 집중할 수 있도록 할 계획입니다. 이와 관련하여 그는 다음과 같이 말했습니다. "전통적인 언어 모델은 대부분 객관식 질문을 통해 평가되지만, 의사와 소통할 때 의사는 객관식 질문의 점수가 얼마나 높은지는 신경 쓰지 않고, 모델이 임상 과제에 대한 역량 등 실질적인 문제를 해결할 수 있는지에 더 관심을 둡니다."
또한 연구팀은 기존 이미지와 텍스트에만 의존하던 한계를 깨고 유전체학, DNA, RNA, 아미노산 수준에서 관련 연구를 시작했습니다. 그들은 희귀 질환 진단과 신약 개발에 있어 더 많은 가능성을 창출하기를 바라고 있으며, 우리는 그들의 미래 결과를 기대하고 있습니다.
자세한 내용은 Xie Weidi의 Google Scholar를 참조하세요.
https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN