정확도 5.2%로 향상, NVIDIA 등 3D 이미지 자동 분할 및 상호작용 구현을 위한 멀티모달 의료 이미지 분할 모델 출시

1971년 최초의 임상용 CT 스캐너가 등장한 이래로 의료 영상은 2차원 슬라이스에서 3차원 스테레오로 혁명적인 도약을 거쳤습니다. 최신 256열 나선 CT는 0.28초 안에 0.16mm 두께의 전신 스캔 데이터를 수집할 수 있으며, 7T 초고자장 자기공명영상은 해마의 신경 섬유의 미세한 방향까지 포착할 수 있습니다. 그러나 수천만 개의 폭셀이 포함된 이러한 3차원 매트릭스가 의사에게 제시될 때 장기, 병변 및 혈관 네트워크를 정확하게 분할하는 작업은 여전히 수동으로 레이어별로 윤곽을 그리는 데 크게 의존합니다. 연구에 따르면 일반적인 복부 CT 이미지에 대한 간 분할에는 45~90분이 걸리는 반면, 다중 장기 연결을 포함하는 방사선 치료 계획 주석에는 8시간 이상 걸릴 수 있습니다.전문가들의 시각 피로로 인한 경계 오류율은 12%에 달할 수 있다.
이러한 딜레마로 인해 의료 영상 분석 분야에서 가장 활발한 혁신이 일어났습니다. 초기의 회색조 임계값 기반 영역 확장 알고리즘부터 딥 러닝을 통합한 U-Net 3차원 변형 V-Net, 그리고 시각적 트랜스포머를 도입한 TransUNet 하이브리드 아키텍처에 이르기까지 알고리즘 엔지니어들은 픽셀 미로에서 지능형 탐색 시스템을 구축하기 위해 끊임없이 노력해 왔습니다. 2024년 MICCAI 컨퍼런스에서 나온 최근의 획기적인 성과는 일부 모델이 전립선 분할 작업에서 숙련된 방사선과 의사의 성과와 비슷한 수준의 그룹 간 일관성을 달성했지만, 드문 해부학적 변형 사례에서의 성과는 여전히 큰 변동이 있음을 보여주었습니다. 이는 더욱 심오한 기술적 철학적 명제를 드러냅니다. AI가 인체를 이해하려면 얼마나 많은 사전 지식이 필요하며, 인간의 인지를 넘어서는 해부학적 통찰력을 얼마나 많이 생성할 수 있을까요?
최근 NVIDIA, 아칸소 의과대학, 국립보건원, 옥스퍼드 대학으로 구성된 학제간 팀이 획기적인 연구 결과인 VISTA3D 다중 모드 의료 이미지 분할 모델을 발표했습니다.이 모델은 3D 슈퍼복셀 특징 추출 방법의 선구자입니다.통합 아키텍처를 통해 3D 자동 분할(127개 해부학적 구조 포함)과 상호 작용 분할의 협업 최적화를 실현합니다. 14개 데이터 세트를 포함하는 포괄적인 벤치마크 테스트에서 가장 진보된 3D 힌트 가능 자동 분할 및 대화형 편집을 달성했으며, 제로 샘플 성능을 50%만큼 향상시켰습니다.
관련 연구 결과는 "VISTA3D: 3D 의료 영상을 위한 통합된 접합 기초 모델"이라는 제목으로 arXiv에 사전 인쇄본으로 게재되었습니다.

서류 주소:
https://doi.org/10.48550/arxiv.2406.05285
3D 의료 영상 기술의 패러다임 전환과 과제
의료 영상 분석의 디지털 혁신 속에서 3D 자동 분할 기술은 '전문의'에서 '일반의'로 패러다임이 전환되고 있습니다. 기존 방식에서는 전담 네트워크 아키텍처와 맞춤형 교육 전략을 구축하여 각 해부학적 구조나 병리 유형에 대한 독립적인 전문가 모델을 만듭니다. 이 모델은 특정 작업에서는 좋은 성과를 보이지만, 방사선과 의사에게 단일 장기 진단 교육을 반복적으로 받으라고 요구하는 것과 같습니다.127개의 해부학적 구조가 포함된 전신 CT 스캔을 처리하는 경우, 시스템은 수십 개의 모델을 병렬로 실행해야 하며, 컴퓨팅 리소스 소비와 결과 통합의 복잡성이 기하급수적으로 증가합니다.
더 중요한 점은, 임상에서 의사들을 실제로 괴롭히는 것은 표준 해부학 도해를 깨는 드문 사례라는 것입니다. 실험용 쥐의 간에서 새롭게 발견된 나노 스케일 석회화 병소일 수도 있고, 이식 환자의 해부학적 변이로 인해 형성된 비정상적인 혈관 모양일 수도 있습니다. 이러한 시나리오는 기존 시스템의 근본적인 결함을 드러냅니다.사전 설정된 범주와 폐쇄형 학습에 지나치게 의존하면 모델이 0개의 샘플을 학습하고 개방형 도메인에 적응하는 것이 어렵습니다.
이런 딜레마에 대한 획기적인 발견은 자연 이미지 처리 분야에서 시작되었습니다. 대규모 언어 모델이 여러 작업에서 놀라운 일반화 능력을 보여주자, 의료 영상 커뮤니티에서는 "대화형" 지능형 시스템을 구축하는 방법을 모색하기 시작했습니다. Meta가 제안한 SAM(Segment Anything Model)은 2차원 이미지에서 "클릭하여 분할"이라는 혁신적인 상호작용을 실현했으며, 제로 샘플 성능은 일부 전문 모델을 능가합니다. 하지만 이 패러다임을 3차원 의학 분야로 옮기면 단순한 차원 확장은 근본적인 문제에 직면하게 됩니다. 연속 단층 촬영에서 인체 장기의 위상적 복잡성은 비디오에서 움직이는 차량의 위상적 복잡성과 비교할 수 없습니다.
간 분할을 예로 들면, 문맥 분기, 종양 침윤 및 수술 클립 금속 인공물이 인접한 슬라이스 사이에 동시에 존재할 수 있으며, 이를 위해서는 모델이 단순한 시계열 추적보다는 진정한 3차원 공간 추론 기능을 갖춰야 합니다. 이전에 연구자들은 SAM 아키텍처를 3차원으로 만들려고 시도했으며 SAM2와 SAM3D 시스템을 형성했습니다. 혈관 추적과 같은 작업에서는 진전이 있었지만,하지만 다이스 계수는 여전히 전문가 모델보다 9~15퍼센트 포인트 낮습니다.특히 여러 장기의 중복된 영역을 다룰 때 오류율이 급격히 증가합니다.
더욱 심각한 모순은 의료 데이터의 독특한 지식 의존적 특성에 있습니다. 자연스러운 이미지 분할이 픽셀 수준의 통계적 특징에 의존할 수 있는 경우,의료 영상 분석은 해부학적 사전 지식을 통합해야 합니다.예를 들어, 췌장 분할에는 회색조 특징을 식별하는 것뿐만 아니라 십이지장과의 해부학적 근접성을 이해하는 것도 필요합니다. 이로 인해 맥락 기반 학습의 새로운 패러다임이 생겨났습니다. 즉, 예시 이미지나 텍스트 설명을 입력하여 모델이 새로운 범주에 적응하도록 안내하는 것입니다.
그러나 테스트 중에 기존 시스템이 노출된 문제는 매우 아이러니합니다. 임상의에게 고품질의 예시 주석을 제공하도록 요구하는 것 자체가 자동 세분화의 원래 의도에 어긋납니다. 그리고 텍스트 중심의 의미 정렬 편향으로 인해 문부담관암을 정상적인 혈관 구조로 잘못 식별할 수 있습니다. 이 기술 경로의 역설은 의료 AI 개발의 근본적인 명제를 반영합니다.알고리즘 성능만을 추구하는 것보다 개방형 도메인 적응과 임상적 안전성 간의 역동적인 균형을 확립하는 방법이 더 실용적일 수 있습니다.
VISTA3D: 3D 의료 영상을 위한 통합 분할 기반 모델
3D 의료영상 분석의 패러다임 한계를 돌파하기 위해NVIDIA의 연구팀은 2차원 사전 학습의 장점과 3차원 해부학적 특성을 결합한 혁신적인 아키텍처인 VISTA3D 모델을 구축했습니다.아래 그림과 같이, 분할 작업 X가 127개의 지원 카테고리(왼쪽의 녹색 원)에 속하는 경우, VISTA3D는 높은 정확도로 자동 분할(Auto-seg)을 수행합니다. 의사는 필요할 때 VISTA3D를 사용하여 결과를 검토하고 효율적으로 편집할 수 있습니다. X가 새로운 클래스(오른쪽의 파란색 원)인 경우 VISTA3D는 3D 대화형 제로 샷 분할을 수행합니다.

구체적으로,VISTA3D 모델 아키텍처는 모듈식 설계 개념을 채택하고 의료 영상 분야에서 널리 검증된 SegResNet을 기반으로 3D 분할 코어를 구축합니다.이 U자형 네트워크 아키텍처는 BraTS 2023과 같은 국제 권위 분할 과제에서 탁월한 성능을 보였습니다. 아래 그림과 같이 사용자가 127개 지원 범주에 속하는 클래스 프롬프트를 제공하면 맨 위의 자동 분기가 자동으로 분할 기능을 활성화합니다. 사용자가 3D 포인트 프롬프트를 제공하면 하단의 대화형 브랜치가 대화형 분할 기능을 활성화합니다. 두 가지 분기가 모두 활성화된 경우, 알고리즘 기반 병합 모듈은 대화형 결과를 사용하여 자동 결과를 편집합니다.

이 중 자동 분기점은 지능형 코딩 기술을 사용하여 127개의 인체 구조를 관리합니다. 특정 부품을 찾아야 할 때, 시스템은 스캔된 이미지의 특징 정보와 정확하게 일치하고 지능형 변환을 통해 분할 결과를 생성합니다.이 디자인은 기존 방식에 비해 60% 메모리 리소스를 절약할 수 있으며, 불완전한 주석으로 인해 발생하는 학습 편향도 피할 수 있습니다.수동 보정 모듈은 3차원 클릭 위치 지정 기술을 사용합니다. 먼저 이미지 세부 정보를 복원한 다음 처리 속도를 최적화합니다. 의사가 클릭한 위치는 공간 좌표로 변환되어 스캐닝 기능과 지능적으로 연관됩니다. 췌장이나 종양 등 혼동하기 쉬운 구조를 발견하면 시스템이 자동으로 구별 표시를 추가합니다.
두 모듈은 지능적인 협업을 통해 정밀한 조정을 달성합니다. 수정 작업은 클릭 위치에 연결된 로컬 영역에만 영향을 미치며, 전체 분할 결과를 손상시키지 않고 특정 부분을 수정하기 위해 정밀 메스를 사용하는 것과 같습니다.이 3차원 최적화 솔루션은 40%로 의사의 교정 효율성을 향상시킵니다.연구팀은 모델 학습 단계에서 11,454개의 CT 스캔 데이터 세트를 통합하고 반지도 학습 프레임워크 하에서 의사 레이블 생성 메커니즘을 채택했으며, 이를 4단계 점진적 학습 전략과 결합했습니다. 그들은 먼저 혼합된 데이터 세트(가상 레이블과 슈퍼 폭셀 주석 포함)에 대한 사전 훈련을 한 다음, 자동 분할과 대화형 수정 작업을 각각 미세 조정하고 마지막으로 공동 훈련을 통해 기능적 통합을 달성했습니다. 궁극적으로 VISTA3D 모델은 핵심 혁신을 통해 여러 가지 기술적 도약을 이루었습니다.
첫째, 이 모델은 127가지 유형의 해부학적 구조와 병리학적 특징을 포괄하는 14개의 국제 공공 데이터 세트에 대해 체계적으로 검증되었습니다.3D 자동 분할 정확도(다이스 계수 0.91±0.05)는 기존 기준 모델보다 8.3% 더 높습니다.또한 클릭 기반의 상호작용적 수정을 지원하여 수동 수정에 필요한 시간을 기존 방식의 1/3로 단축합니다. 둘째, 최초의 3D 슈퍼복셀 특징 전달 기술은 2D 사전 훈련된 백본 네트워크의 공간적 특징을 분리하여 췌장 분할과 같은 제로샷 작업에서 50% mIoU의 개선을 달성했습니다.라벨링 효율성은 지도 학습보다 2.7배 더 높습니다.또한 연구팀은 여러 기관 간의 다중 모드 데이터 세트도 구축했습니다.97.2%의 주석 정확도를 유지하는 동시에 데이터 주석 비용은 전체 수동 주석의 15%로 압축되었습니다.
중국에서 3D 의료 영상과 AI 통합 연구 진행 상황
최근 몇 년 동안 의료 분야에 AI 기술이 널리 적용되면서 3차원 의료 영상 기술과 인공지능을 결합한 기술이 점차 연구 핫스팟이 되었고, 중국에서 상당한 진전을 이루어 의료 진단 및 치료에 새로운 기회를 가져왔습니다.
2023년에는 의료 영상 분야에서 AI가 주로 보조 진단에 적용될 것입니다. AI는 방대한 양의 이미지와 환자 정보 데이터를 빠르게 분석하여 진단 효율성을 높일 수 있습니다. 예를 들어, 일부 AI 통합 영상 시스템은 육안으로는 식별하기 어려운 작은 이상 징후를 감지하여 진단의 정확도를 높일 수 있습니다. 또한, AI는 환자의 전자 의료 기록에서 이전 영상 스캔을 검색하여 최신 스캔과 비교하여 의사에게 더욱 포괄적인 진단 정보를 제공할 수 있습니다. 예를 들어,상하이 교통대학은 3D 의료 이미지 분할을 위한 새로운 작업 모델인 PnPNet을 제안했습니다.계층 간 경계 혼란 문제는 교차 경계 영역과 인접 영역 간의 상호 작용 역학을 모델링함으로써 해결됩니다. 성능은 SOTA이며 MedNeXt, Swin UNETR 및 nnUNet과 같은 네트워크보다 우수합니다.
* 서류 주소:
https://arxiv.org/abs/2312.08323
2024년에는 3D 의료영상 기술과 AI의 융합이 더욱 긴밀해지고, 연구 방향도 더욱 다양해질 것으로 전망됩니다. 한편, 의료영상의 3차원 재구성에 AI 기술을 적용하는 분야는 점차 성숙 단계에 접어들었으며, 3차원 영상 분할 및 재구성을 자동으로 수행하여 영상 재구성의 정확도와 효율성을 향상시킬 수 있게 되었습니다. 반면, AI의 이미지 분석 기능도 더욱 향상되어 의사가 질병을 진단하고 치료 계획을 수립하는 데 도움이 될 수 있습니다. 또한, AI 기술은 노이즈 제거, 향상, 렌더링 등의 이미지 후처리에도 적용되어 이미지의 가독성과 미학성을 향상시킵니다. 예를 들어,쓰촨대학 서중국병원은 중국 인구 폐암 검진 코호트와 폐 결절 임상 코호트를 기반으로 데이터 기반의 중국 폐 결절 보고 및 데이터 시스템(C-Lung-RADS)을 혁신적으로 개발했습니다.폐결절의 악성 위험에 대한 정확한 등급 분류와 개인화된 관리가 달성되었습니다.
* 서류 주소:
https://www.nature.com/articles/s41591-024-03211-3
2025년까지 3차원 의료 영상에 AI 기술을 적용하는 범위가 더욱 광범위하고 심도 있게 확대될 것입니다. 예를 들어,최근 베이징 대학 연구팀은 국제적으로 "신장 영상 그룹 프로젝트"를 시작했습니다.다중모달 영상 기술과 인공지능 알고리즘을 통해 신장 전체의 디지털 지도를 구축하는 데 앞장설 계획이다. 이 "디지털 신장"은 신장 질환의 메커니즘을 보다 명확하게 보여주고, 신장 질환의 정확한 진단, 새로운 약물 개발, 정밀한 치료에 새로운 방향을 제공할 수 있습니다.
동시에,중국 지질과학대학과 바이두의 팀은 공동으로 ConDSeg라는 대비 기반 의료 이미지 분할을 위한 일반 프레임워크를 제안했습니다.이 프레임워크는 일관성 강화 학습 전략, 의미 정보 분리 모듈, 대비 기반 기능 집계 모듈, 크기 인식 디코더를 혁신적으로 도입하여 의료 이미지 분할 모델의 정확도를 더욱 향상시킵니다.
* 서류 주소:
https://arxiv.org/abs/2412.08345
그뿐만 아니라, 쿤밍 과학기술대학과 중국해양대학은 양방향 단계별 특징 정렬(BSFA) 비정렬 의료 영상 융합 방법을 제안했습니다. 기존 방법과 비교했을 때, 이 연구는 통합 처리 프레임워크 내에서 단일 단계 접근 방식을 통해 정렬되지 않은 다중 모드 의료 영상을 동시에 정렬하고 융합합니다. 이를 통해 이중 작업의 조정을 달성할 뿐만 아니라 여러 개의 독립적인 기능 인코더 도입으로 인해 발생하는 모델 복잡성 문제를 효과적으로 줄일 수 있습니다.
* 종이 주소:
https://doi.org/10.48550/arXiv.2412.08050
하지만 3D 의료영상 기술과 AI를 결합하는 연구 역시 몇 가지 과제에 직면해 있습니다. 데이터 개인정보 보호, 알고리즘 투명성, 모델 일반화 능력, 규제 감독과 같은 문제는 반드시 해결해야 할 핵심 문제로 남아 있습니다. 앞으로 기술이 꾸준히 발전하고 관련 규제가 개선됨에 따라 이러한 문제는 점차 해결될 수 있으며, 이를 통해 의료 영상 분야에서 AI 기술이 더욱 폭넓게 활용될 수 있을 것입니다.