SAM 2의 최신 애플리케이션을 지금 만나보세요! 옥스포드 대학 팀, Medical SAM 2 출시, 의료 영상 분할 SOTA 목록 갱신

2023년 4월, Meta는 "모든 것을 세분화"할 수 있다고 주장하며 SAM(Segment Anything Model)을 출시했습니다. 이는 컴퓨터 비전 분야 전체를 뒤흔든 폭탄선언과 같았으며, 많은 사람은 이를 전통적인 이력서 작성 업무를 전복한 연구로 여겼습니다.
1년이 넘은 후,Meta는 또 다른 획기적인 업데이트인 SAM 2를 출시했습니다. 이는 정적 이미지와 동적 비디오 콘텐츠에 대한 실시간 제안 가능 객체 분할을 제공하고, 이미지와 비디오 분할 기능을 동일한 시스템에 통합합니다.상상할 수 있듯이, 이러한 강력한 강점 덕분에 업계는 다양한 분야, 특히 의료 영상 분할 분야에서 SAM의 응용 분야를 빠르게 탐색할 수 있었습니다. 많은 실험실과 학술 연구팀에서는 이미 이를 의료 이미지 분할 모델의 유일한 선택으로 간주하고 있습니다.
의료영상 분할이란 의료영상에서 특별한 의미를 지닌 부분을 분할하고 관련 특징을 추출하여 임상 진단, 병리학 연구 등에 신뢰할 수 있는 기반을 제공하는 기술을 말합니다.
최근 몇 년 동안 딥러닝 기술이 꾸준히 발전하면서 신경망 모델을 기반으로 한 분할이 점차 의료 영상 분할의 주류가 되었으며, 자동화된 분할 방법은 효율성과 정확도를 크게 향상시켰습니다. 하지만,의료 영상 분할 분야의 특수성을 감안할 때, 여전히 해결해야 할 몇 가지 과제가 있습니다.
첫 번째는 모델 일반화입니다.특정 대상(예: 장기나 조직)에 대해 훈련된 모델은 다른 대상에 적용하기 어렵기 때문에 종종 다른 분할 대상에 맞게 해당 모델을 다시 개발해야 합니다.두 번째는 데이터의 차이입니다.컴퓨터 비전을 위해 개발된 많은 표준 딥 러닝 프레임워크는 2D 이미지용으로 설계되었지만, 의료 영상에서는 일반적으로 CT, MRI, 초음파 이미지와 같이 데이터가 3D 형식입니다. 이러한 차이는 의심할 여지 없이 모델 학습에 큰 문제를 야기합니다.
위의 문제를 해결하기 위해서는,옥스퍼드 대학 연구팀은 Medical SAM 2(MedSAM-2)라는 의료 이미지 분할 모델을 개발했습니다.이 모델은 SAM 2 프레임워크를 기반으로 설계되었으며 의료 이미지를 비디오로 처리합니다. 이 제품은 3D 의료 영상 분할 작업에서 우수한 성능을 발휘할 뿐만 아니라, 새로운 단일 프롬프트 분할 기능도 제공합니다. 사용자는 새로운 특정 객체에 대한 힌트만 제공하면 되고, 후속 이미지에서 유사한 객체의 분할은 추가 입력 없이 모델에 의해 자동으로 완료됩니다.
관련 논문과 결과는 "Medical SAM 2: Segment Anything Model 2를 통해 의료 이미지를 비디오로 분할"이라는 제목으로 사전 인쇄 플랫폼 arXiv에 게재되었습니다.
연구 하이라이트:
* 이 팀은 SAM 2를 기반으로 한 의료 영상 분할 모델 MedSAM-2를 개척했습니다.
* 팀은 새로운 "의료 이미지를 비디오로"라는 개념을 채택하여 "단일 프롬프트 분할 기능"을 구현했습니다.

서류 주소:
https://arxiv.org/pdf/2408.00874
SA-V 비디오 분할 데이터 세트 직접 다운로드:
의료 SAM 2 샘플 의료 세분화 데이터 세트:
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 분류 설계, 종합 평가
연구팀은 자동 생성된 마스크 큐를 사용하여 다섯 가지 의료 이미지 분할 데이터 세트에 대한 실험을 수행했으며, 이를 두 가지 범주로 나누었습니다.
첫 번째 범주는 일반적인 세분화 성능을 평가하는 것을 목표로 합니다.연구팀은 복부 다기관 분할 작업을 선택하고 12개의 해부학적 구조가 포함된 BTCV 데이터 세트를 선택했습니다.
두 번째 범주는 다양한 영상 모달리티에 걸쳐 모델의 일반화 능력을 평가하는 것을 목표로 합니다.연구진은 시신경 유두와 시신경컵 이미지 분할을 위해 REFUGE2 데이터 세트를 사용했습니다. MRI 스캔에서 뇌종양 분할을 위한 BraTs 2021 데이터 세트 TNMIX 벤치마크는 초음파 이미지에서 갑상선 결절을 분할하는 데 사용되었으며, 이는 TNSCUI의 4,554개 이미지와 DDTI의 637개 이미지로 구성되어 있습니다. ISIC 2019 데이터세트는 피부 병변을 흑색종과 모반으로 구분하는 데 사용되었습니다.
또한, 연구팀은 다양한 유형의 단서를 사용하여 모델의 단일 단서 분할 기능을 더욱 평가하기 위해 10개의 추가 2D 이미지 분할 작업을 설정했습니다. 구체적으로, KiTS23, ATLAS23, TDSC 및 WBC 데이터 세트는 포인트 힌팅 기술을 사용합니다. SegRap, CrossM23 및 REFUGE 데이터 세트는 BBox(경계 상자) 힌팅을 사용합니다. CadVidSet, STAR 및 ToothFairy 데이터 세트는 마스크 힌팅을 사용합니다.
모델 아키텍처: 다양한 차원의 의료 이미지에 대한 효과적인 분할 처리
MedSAM-2의 아키텍처는 기본적으로 SAM 2와 유사하지만, 연구팀은 모델의 성능을 기술적으로 보장하기 위해 신뢰 메모리 뱅크와 가중 픽업 전략을 결합한 독특하고 효율적인 처리 모듈과 파이프라인도 구축했습니다.
구체적으로,MedSAM-2의 아키텍처는 아래 그림과 같습니다.포함하다:
* 이미지 인코더는 입력을 임베딩으로 추상화합니다.
* 메모리 뱅크에 저장된 메모리를 사용하여 입력 임베딩을 조정하는 메모리 주의
* 예측된 프레임 임베딩을 추상화하는 메모리 디코더

네트워크의 인코더와 디코더는 SAM의 인코더와 디코더와 유사합니다. 인코더는 계층적 시각 변환기로 구성되고, 디코더는 프롬프트 임베딩과 이미지 임베딩을 통합하는 가벼운 양방향 변환기를 포함합니다. 여기서 프롬프트 임베딩은 프롬프트 인코더에 의해 생성됩니다. 메모리 주의 구성 요소는 일련의 쌓인 주의 블록으로 구성되며, 각 블록에는 자기 주의 블록과 교차 주의 메커니즘이 들어 있습니다.
주목할 점은 다음과 같습니다.MedSAM-2의 중요한 혁신은 의료 영상 처리를 비디오 분할로 처리하는 것입니다.이는 3D 의료 영상 분할의 성능을 개선하고 "단일 프롬프트 분할 기능"을 구현하는 핵심입니다. 이를 위해 연구팀은 서로 다른 차원의 의료 영상에 대한 효과적인 분할 처리를 수행하기 위해 각각 2D 및 3D 의료 영상에 대한 두 가지 운영 프로세스를 개발했습니다.
3D 의료 영상 처리를 위해3D 의료 영상의 인접한 슬라이스 사이에는 강력한 시간적 상관관계가 있으므로 처리 방법이 비디오 데이터의 처리 방법과 유사합니다. SAM 2의 원래 저장 시스템은 이전 슬라이스와 해당 예측을 검색하여 연속 슬라이스 분할을 수행하는 데 사용됩니다. 그런 다음 입력 이미지 임베딩은 메모리 어텐션 메커니즘을 통해 향상되고, 분할 결과는 후속 슬라이스의 분할을 돕기 위해 저장 영역에 다시 추가됩니다.
2D 의료 영상 처리를 위해처리 방식은 SAM 2에서 사용되는 시간적 선입선출 큐(TFO) 방식과 다릅니다. 대신, 동일한 장기나 조직을 포함하는 의료 영상 그룹을 "의료 영상 스트림"으로 그룹화하고, "신뢰도 우선" 저장 영역에 모델 템플릿을 저장합니다. 신뢰도는 모델이 예측한 확률을 기반으로 계산되며, 이미지 다양성 제약이 구현됩니다. 입력 이미지 임베딩과 메모리 영역 정보를 병합할 때 가중치 선택 전략이 채택됩니다. 학습 단계에서는 모델 예측이 더욱 정확한지 확인하기 위해 교정 헤드를 사용합니다. 궁극적으로, 우리는 시간 연관 없이 단 하나의 샘플 프롬프트로 타겟의 자동 세분화를 달성할 수 있습니다.
실험 결과: MedSAM-2는 성능과 일반화 능력에서 앞서 나갑니다.
연구팀은 의료 영상 분할에서 모델의 성능을 평가하기 위해 IoU(Intersection over Union)와 Dice Score를 사용했으며, 성능 평가의 정확성을 보장하기 위해 Hausdorff Distance(HD95) 지표를 도입했습니다.
*LoU는 Jaccard 지수라고도 하며, 특정 데이터 세트에서 객체 감지기의 정확도를 평가하는 데 사용되는 지표입니다.
* 다이스 점수(Dice Score)는 다이스 계수(Dice Coefficient)라고도 하며, 두 샘플의 유사성을 비교하는 통계 도구입니다.
* 하우스도르프 거리(HD95) 지표는 두 점 집합 사이의 차이 정도를 결정하는 데 사용되는 지표입니다. 이는 이미지 분할 작업에서 객체 경계의 정확도를 평가하는 데 자주 사용되며, 예측된 분할과 실제 경계 사이의 최악의 거리를 정량화하는 데 특히 효과적입니다.
먼저, 연구팀은 2D 및 3D 의료 이미지에 대한 분할 작업을 포함한 다양한 SOTA 의료 이미지 분할 방법과 MedSAM-2를 비교 평가했습니다. 3D 의료 이미지의 경우 힌트는 0.25의 확률로 무작위로 제공됩니다. 2D 의료 이미지의 경우 확률은 0.3입니다.
제안된 모델의 3D 의료 이미지에 대한 전반적인 성능을 평가하기 위해,연구팀은 MedSAM-2를 BTCV 다중 기관 분할 데이터세트에 기반한 고급 분할 방법과 비교했습니다. 여기에는 잘 알려진 nnUNET, TransUNet, UNetr, Swin-UNetr 모델, 확산 기반 모델(EnsDiff, SegDiff, MedSegDiff 등)이 포함됩니다. 또한, 팀은 원래 SAM, 완전히 미세 조정된 MedSAM, SAMed, SAM-Med2D, SAM-U, VMN 및 FCFI와 같은 대화형 세분화 모델에 대한 비교 평가도 수행했습니다. 성과는 Dice Score를 사용하여 정량화되었으며, 결과는 다음 그림에 나와 있습니다.

결과는 MedSAM-2가 기존 SAM 및 MedSAM에 비해 상당한 개선이 있음을 보여주었습니다. BTCV 데이터 세트에서 MedSAM-2는 다중 기관 분할 작업에서 뛰어난 성능을 달성하여 최종 Dice 점수 88.57%를 달성했습니다. 상호작용 모델 중에서 MedSAM-2는 선두 자리를 유지하며, 이전 선두 상호작용 모델인 Med-SA보다 2.78% 더 높은 성능을 보였습니다. 이러한 모든 대화형 모델에는 프레임마다 프롬프트가 필요하지만, MedSAM-2는 더 적은 프롬프트로 더 나은 결과를 얻습니다.
2D 의료 영상 분할 작업에서,연구팀은 MedSAM-2를 다양한 영상 모달리티의 특정 작업에 맞춰 제작된 방법과 비교했습니다. 구체적으로, 시신경컵 분할의 경우 ResUnet 및 BEAL과 비교되었습니다. 뇌종양 분할을 위해 TransBTS와 SwinBTS와 비교되었습니다. 갑상선 결절 분할의 경우 MTSeg 및 UltraUNet과 비교되었습니다. 피부 병변 분할을 위해 FAT-Net과 BAT와 비교했습니다. 또한, 팀은 대화형 모델도 벤치마킹했으며, 그 결과는 아래 그림에 나와 있습니다.

결과에 따르면 MedSAM-2는 5가지 다른 작업에서 다른 모든 방법보다 우수한 성능을 보였으며, 다양한 의료 이미지 분할 작업에서 우수한 일반화 능력을 보였습니다. 구체적으로, MedSAM-2는 시신경 유두에서 2.0%, 뇌종양에서 1.6%, 갑상선 결절에서 2.8%의 개선을 달성했습니다. 대화형 모델 비교에서 MedSAM-2는 여전히 선두적인 성능을 유지하고 있습니다.
마침내,또한 연구팀은 MedSAM-2에 단 하나의 신호만 주어졌을 때의 성능을 평가했습니다.그리고 순차적 이미지 사이에는 명확한 연결이 없었는데, 이는 MedSAM-2가 단일 샷 큐 분할에 적합한 능력을 더욱 입증합니다. 구체적으로 연구팀은 MedSAM-2를 PANet, ALPNeu, SENet, UniverSeg와 비교했는데, 이 모든 기술은 단일 프롬프트로만 테스트되었습니다. 또한 연구팀은 MedSAM-2를 DAT, ProbONE, HyperSegNas, One-prompt 등의 단일 렌즈 모델과 비교했습니다.

결과에 따르면 MedSAM-2는 다양한 작업에서 강력한 일반화 역량을 보여주었으며, 집중적으로 훈련된 One-prompt와 비교해도 우수한 성능을 보였으며, 10가지 작업 중 1가지 작업에서만 뒤처졌습니다. 또한 모든 방법이 마스크를 제공하는 시나리오에서 MedSAM-2는 더욱 확실한 이점을 보이며, 평균 3.1%로 2위를 앞지르는 경우가 많았습니다. 이는 모든 즉각적인 설정 중에서 가장 큰 격차입니다.
SAM, 의료 영상 분할 연구 본격화 지원
이 논문의 출판은 의학 분야에서 SAM과 SAM 2의 잠재력에 대한 또 다른 심층적인 탐구로 간주될 수 있습니다. 이는 의료 영상 분할 분야에 새로운 아이디어와 방법을 제공하며, 특히 임상 응용 분야에서 큰 잠재력과 가치를 보여줍니다. 이를 통해 의료 영상 분할 작업량을 대폭 줄이고 의료 영상 분할의 효율성과 정확성을 향상시킬 수 있습니다.
더욱 언급할 가치가 있는 것은 기사의 서두에서 언급했듯이,많은 연구실과 학술팀이 SAM의 잠재력을 탐구하고 있습니다.이 논문에서 언급된 의료 영상 분할 분야에는 옥스포드 대학 팀 외에도 많은 팀이 있습니다.
우연히도 SAM이 출시된 직후, 선전대학교 의학부 생체공학과의 니 동 교수 연구팀은 옥스퍼드대학교, 취리히 연방공과대학교, 저장대학교, 선전인민병원, 두잉 의과대학과 협력하여 의료 영상 작업에서 SAM의 적용에 대한 포괄적이고 다각적인 실험과 평가를 시작했습니다. 관련 논문과 결과는 의료 영상 분석 분야 최고 국제 학술지인 "Medical Image Analysis"에 "Segment Anything Model for Medical Images?"라는 제목으로 게재되었습니다.

본 논문의 연구에서 관련 팀은 최종적으로 18개의 영상 모달리티, 84개의 생물학적 분할 대상, 1050K개의 2D 영상 및 6033K개의 분할 마스크를 포함하는 초대형 의료 영상 분할 데이터 세트인 COSMOS 1050K를 구축했습니다. 연구진은 이 데이터 세트를 바탕으로 SAM에 대한 포괄적인 평가를 실시하고 의료 표적 인식에 있어 SAM의 역량을 개선할 방법을 모색했습니다.
COSMOS 1050K 의료 영상 분할 데이터 세트 직접 다운로드:
또한, 복단대학교 빅데이터 학원과 상하이 교통대학교 생체공학 학원의 팀도 의료 영상 분할 분야에서 SAM에 대한 일련의 연구를 수행했습니다. 관련 논문의 제목은 "의료 영상 분할을 위한 모든 모델 분할: 현재 응용 분야와 미래 방향"이며 arXiv와 Computer in Biology and Medicine과 같은 유명 학술 웹사이트와 저널에 수록되어 있습니다.

본 논문은 자연 영상 분할에서 주목할 만한 성과를 이룬 SAM을 의료 영상 분할 분야에 적용할 수 있는 가능성에 초점을 맞추고, SAM 모듈의 미세 조정과 유사한 아키텍처의 재교육을 통해 의료 영상 분할에 적응하는 방법을 탐구합니다.
서류 주소:
https://www.sciencedirect.com/science/article/abs/pii/S0010482524003226
요약하자면, 위 논문에서 논의한 대로, 과학자들은 SAM의 잠재력을 탐구함으로써 의료 영상의 처리와 분석을 더 간단하고 효율적으로 만들었습니다. 이는 학계, 의료계, 심지어 환자 모두에게 기대할 만한 결과가 될 것입니다. 동시에 SAM과 같은 일반적인 이미지 분할 모델의 출시로 다양한 분야에 대한 마법의 문이 열렸습니다.저는 의료 영상 분야뿐만 아니라 자율주행, 뉴미디어, AR/VR 등도 미래에 큰 도움을 줄 수 있을 것으로 믿습니다.
책 추첨

HyperAI와 전자산업 출판사가 공동으로 무료 도서를 제공해드립니다! 과학을 위한 AI: 인공지능이 과학 혁신을 이끈다'라는 주제로 매우 유용한 대중 과학 서적 5권을 준비했습니다. 추첨에 참여하세요~
참여 방법
HyperAI 위챗 공식 계정을 팔로우하고, 백그라운드에 "AI4S 무료책"이라고 댓글을 달고, 추첨 페이지를 클릭하여 추첨에 참여하세요. 저희는 여러분을 위해 5권의 책을 준비했으며, 택배로 배송해 드립니다. 와서 참여하세요!
책 소개
단백질 구조 예측부터 유전자 돌연변이의 병원성 추론까지, AI가 주도하는 새로운 패러다임은 생명 과학을 포함한 다양한 과학 분야에서 새로운 기회를 볼 수 있게 해주었습니다.
"과학을 위한 AI: 인공지능이 과학 혁신을 주도한다"라는 책은 재료 과학, 생명 과학, 전자 과학, 에너지 과학, 환경 과학이라는 5개 주요 분야와 인공지능의 교차 통합에 초점을 맞추고 있습니다. 이 책은 이해하기 쉬운 언어를 사용하여 기본 개념, 기술 원리, 응용 시나리오를 포괄적으로 소개함으로써 독자들이 과학을 위한 AI의 기본 지식을 빠르게 습득할 수 있도록 돕습니다. 또한 이 책은 각 분야별로 사례를 통해 자세한 소개를 제공하고, 산업 지도를 정리하며, 관련 정책에 대한 통찰력을 제공합니다.