CVPR 2024 최우수 논문 후보! 심천대학교와 홍콩이공대학교가 공동으로 MemSAM을 출시했습니다. 의료 영상 분할에 "모든 것을 분할" 모델을 적용합니다.

세계보건기구(WHO)의 통계에 따르면, 심혈관 질환은 전 세계적으로 주요 사망 원인으로, 매년 약 1,790만 명이 이로 인해 목숨을 잃고, 전 세계 사망자의 321%를 차지합니다. 심장초음파는 심혈관 질환을 진단하는 초음파 기술로, 휴대성, 저렴한 비용, 실시간성 등의 특징으로 인해 임상에서 널리 사용되고 있습니다. 하지만,심장초음파 검사는 경험이 풍부한 의사의 수동 평가가 필요하며, 평가의 질은 주로 의사의 전문적 지식과 임상 경험에 따라 달라집니다.이로 인해 평가 결과에 관찰자 간, 관찰자 내 차이가 커지는 경우가 많습니다. 따라서 임상 실무에서는 자동화된 평가 방법이 시급히 필요합니다.
최근 몇 년 동안, 심초음파 영상 분할을 위해 다양한 딥러닝 방법이 제안되었습니다. 그러나 이러한 방법은 초음파 영상의 품질이 낮고 주석이 제한적이기 때문에 여전히 만족스러운 결과를 얻을 수 없습니다. 최근, 대규모 시각 모델인 SAM(Segment Anything Model)이 큰 주목을 받았으며, 많은 자연스러운 이미지 분할 작업에서 주목할 만한 성공을 거두었습니다.그러나 SAM을 의료 비디오 분할에 적용하는 방법은 여전히 어려운 과제입니다.

이를 바탕으로 심천대학교 컴퓨터소프트웨어학과와 홍콩이공대학교 지능형건강연구센터가 공동으로 구성한 팀은 세계 최고 컴퓨터 비전 학술대회인 CVPR 2024에서 "MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation"이라는 제목의 논문을 발표했습니다. 논문에서는연구진은 SAM을 의료 비디오에 적용하여 새로운 심장초음파 비디오 분할 모델인 MemSAM을 제안했습니다.

이 모델은 시공간 정보가 담긴 메모리를 현재 프레임의 분할을 위한 단서로 사용하고, 메모리를 저장하기 전에 메모리 향상 메커니즘을 사용하여 메모리의 품질을 향상시킵니다. 공개 데이터 세트에 대한 실험 결과, 이 모델은 소수의 포인트 프롬프트로 최첨단 성능을 달성하고 제한된 주석을 사용한 완전 지도 방식과 비슷한 성능을 달성하며, 비디오 분할 작업에 대한 프롬프트 및 주석 요구 사항을 크게 줄인다는 것을 보여줍니다.
연구 하이라이트:
- 이 연구에서는 현재 프레임의 분할을 위한 단서로 시공간 정보가 담긴 메모리를 사용하여 표현의 일관성과 분할 정확도를 개선합니다.
- 연구진은 기억을 저장하기 전에 기억을 강화하는 기억 강화 모듈을 제안했으며, 이를 통해 기억 큐잉 동안 반점 잡음과 동작 아티팩트의 부정적인 영향을 완화할 수 있었습니다.
- 새로운 모델은 기존 모델과 비교해 최첨단 성능을 보여주며, 특히 주석이 제한된 완전 지도 학습 방식과 비슷한 성능을 달성했습니다.

서류 주소:
https://github.com/dengxl0520/MemSAM
데이터 세트: 공개적으로 사용 가능한 2개의 심장초음파 데이터 세트
연구자들은 널리 사용되는 두 개의 공개적으로 사용 가능한 심장초음파 데이터 세트를 사용했습니다. 카뮈 이 방법은 EchoNet-Dynamic에서 평가됩니다.
- CAMUS 데이터 세트에는 2D 정점 2챔버 뷰와 정점 4챔버 뷰 비디오를 포함하여 500개의 사례가 포함되어 있으며 모든 프레임에 대한 주석도 제공됩니다.
- EchoNet-Dynamic 데이터 세트에는 10,030개의 2D 정점 2개 챔버 뷰 비디오가 포함되어 있습니다. 각 영상은 좌심실 면적을 적분 형태로 제공하며, 최종 이완기(ED)와 최종 수축기(ES) 단계만 주석으로 표시합니다.
반지도 비디오 분할에서 새로운 방법의 효과를 종합적으로 평가하기 위해 연구진은 CAMUS 데이터 세트를 CAMUS-Full과 CAMUS-Semi의 두 가지 변형으로 조정했습니다. CAMUS-Full은 훈련 중 모든 프레임의 주석을 사용하는 반면, CAMUS-Semi는 말기 이완기(ED)와 말기 수축기(ES) 프레임의 주석만 사용합니다. 테스트하는 동안 두 데이터 세트 모두 완전한 주석을 사용하여 평가됩니다.
연구자들은 데이터 세트에서 비디오를 균일하게 샘플링하여 각각 10개의 프레임으로 잘라냈습니다. 자르기를 하면 ED 프레임이 첫 번째 프레임이 되고 ES 프레임이 마지막 프레임이 되며 해상도는 256×256으로 조정됩니다. CAMUS 데이터 세트는 7:1:2의 비율로 훈련 세트, 검증 세트, 테스트 세트로 나뉩니다.
모델 아키텍처: SAM 구성 요소와 메모리 구성 요소는 MemSAM의 전체 프레임워크를 구축합니다.
MemSAM 모델의 전반적인 프레임워크는 아래 그림과 같습니다.이는 SAM 구성요소와 메모리 구성요소의 두 부분으로 구성됩니다.

SAM 구성 요소는 원래 SAM과 동일한 아키텍처를 사용합니다.이는 이미지 인코더(Image Encoder), 프롬프트 인코더(Prompt Encoder), 마스크 디코더(Mask Decoder)로 구성됩니다.
이미지 인코더는 Vision Transformer(ViT)를 백본으로 사용하여 입력 이미지를 이미지 벡터로 인코딩합니다(이미지 임베딩).
프롬프트 인코더는 포인트 프롬프트와 같은 외부 프롬프트를 수신하고 이를 c차원 임베딩으로 인코딩합니다. 이후, 마스크 디코더는 이미지와 힌트 벡터를 결합하여 분할 마스크를 예측합니다.
이러한 구성 요소에서 이미지 벡터는 투영 계층을 통해 메모리 특징 공간에 매핑되고, 연구자는 메모리 판독을 수행하여 여러 특징 메모리(예: 감각 기억, 작업 기억, 장기 기억)에서 메모리 프롬프트를 얻고 이를 마스크 디코더에 제공합니다. 마지막으로 메모리 강화와 메모리 인코더를 통과하면 메모리가 업데이트됩니다.
다음 그림은 메모리 읽기, 메모리 향상 및 메모리 업데이트 프로세스에 대한 자세한 내용을 보여줍니다.

기억 읽기
메모리 읽기 블록은 이미지 벡터에서 메모리 벡터를 생성하는 과정을 보여줍니다. 이미지 벡터는 쿼리를 생성하기 위해 투영되고, 이 쿼리는 메모리 값 친화성에 대해 쿼리되어 메모리 판독값을 얻습니다. 마지막으로, 기억 판독 결과를 감각 기억과 이미지 벡터와 융합하여 기억 벡터를 얻습니다.
기억력 향상
자연 영상과 비교했을 때 초음파 영상에는 더 복잡한 노이즈가 포함되어 있어 영상 인코더에서 생성된 영상 벡터에는 필연적으로 노이즈가 포함됩니다. 이러한 노이즈가 있는 특징이 아무런 처리 없이 메모리에 업데이트되면 오류가 누적되고 전파될 수 있습니다.
메모리 업데이트에 대한 노이즈의 영향을 완화하기 위해 메모리에서 특징 표현의 구별성을 높이기 위한 메모리 향상 모듈이 필요합니다. 메모리 향상 블록은 먼저 이미지 벡터와 예측 확률 맵을 연결한 다음 3×3 합성곱을 통해 각 픽셀의 수용 영역을 제한하여 로컬 어텐션 가중치 특징을 생성합니다.
메모리 업데이트
마지막으로, 메모리 뱅크에 업데이트될 출력 특징은 Softmax 함수와 이미지 벡터의 내적을 통해 얻어집니다.
연구 결과: MemSAM은 제한된 주석으로 최첨단 성능을 달성합니다.
연구진은 MemSAM의 성능을 검증하기 위해 기존 이미지 분할 모델과 의료 기반 모델을 포함한 다양한 유형의 비교 방법을 광범위하게 선택했습니다. 세 가지 전통적인 이미지 분할 모델은 CNN 기반 UNet, Transformer 기반 SwinUNet, CNN-Transformer 하이브리드 H2Former입니다. 의료 분야에 적용 가능한 SAM 모델로는 MedSAM, MSA, SAMed, SonoSAM, SAMUS 등이 있습니다. 그 중 SonoSAM과 SAMUS는 초음파 이미지에 중점을 둡니다.
먼저, 정량적 비교 결과는 다음 표와 같다.

이러한 최신 방법 중 H2Former와 SAMUS는 CNN-Transformer 아키텍처와 초음파 이미지 최적화 덕분에 두 데이터 세트 모두에서 비교적 좋은 성과를 보였습니다. 그러나 주석이 부족하고 비디오의 시간적 특성을 활용하지 못하는 경우 위 모델은 본 연구에서 제안한 방법보다 뒤처집니다.실험 결과 MemSAM은 제한된 주석으로 최고의 성능을 달성한다는 것이 입증되었습니다.
연구진은 MemSAM을 더욱 평가하기 위해 동일한 설정에서 CAMUS-Semi와 CAMUS-Full 데이터 세트를 비교했습니다. 결과는 아래 그림과 같습니다.

UNet 및 H2Former와 같은 기존 방법과 SonoSAM 및 SAMUS와 같은 초음파 전문 방법은 완전한 주석이 주어졌을 때 괜찮은 분할 결과를 회복할 수 있음을 알 수 있습니다. 우리의 접근 방식은 반지도 학습에서 완전 지도 학습으로 갈수록 얻는 이득이 적지만, 두 경우 모두에서 다른 경쟁 제품보다 우수한 성과를 보입니다.
의료 기준 모델은 전체 감독 하에 프레임별 큐를 필요로 하는 반면, MemSAM은 단일 지점 큐만 필요로 한다는 점에 주목할 필요가 있습니다.실험 결과, 제안된 방법은 레이블이 희소하고 외부 힌트가 훨씬 적은 전체 주석과 비슷한 성능을 달성한다는 것이 확인되었습니다.
다음은 정성적 비교 결과입니다. 연구자들은 아래 그림에서 보이는 것처럼 몇 가지 어려운 사례에 대한 시각화 결과를 제공합니다.

위의 1-2행의 이미지에는 좌심실 주변에 반점 잡음이 포함되어 있어 일부 전통적 모델과 의학 기반 모델에서 이를 잘못하여 좌심실 가장자리로 식별합니다. 3~4행에는 경계가 심하게 모호한 인스턴스가 포함되어 있으며, 비교한 모델 거의 대부분이 실제 심실 경계를 넘어서는 결과를 제공하는 반면, 제안된 방법은 경계를 정확하게 설명합니다.이러한 시각화 결과는 제안된 방법이 낮은 화질의 이미지를 처리하는 데 강력하다는 것을 보여줍니다.
AI, 심혈관 질환 예방 및 치료에 새로운 아이디어 제공
심혈관 질환은 관상동맥 질환, 뇌혈관 질환, 류마티스성 심장 질환 및 기타 질병을 포함한 심장 및 혈관 질환의 한 범주입니다. 현대 사회에서 사람들의 건강에 해로운 식습관, 신체 활동 부족, 흡연 및 음주는 심혈관 질환의 위험을 더욱 증가시켰습니다.
최근 인공지능, 빅데이터 등의 기술이 발전하면서 'AI+의료'가 급속한 발전의 길로 들어섰습니다. AI는 심혈관 질환의 진단 및 예측 분야에서 큰 진전을 이루었습니다. 예를 들어, AI를 심전도 및 심혈관 영상 데이터와 결합하면 정확한 진단이 가능합니다. AI를 심혈관 영상 데이터 및 기타 임상 데이터와 결합하면 관상동맥질환, 선천적 심장병, 심부전 등 심혈관 질환의 조기 검진 및 위험 예측이 가능해집니다.
예를 들어, 심장 소리를 정확하게 분류하는 것은 심혈관 질환을 조기에 진단하고 개입하는 데 중요합니다. 인공심음 청진의 효과는 여전히 의사의 전문적 지식에 달려 있지만, 이러한 상황은 조용히 변화하고 있습니다. 2023년 11월, 중국 의학 아카데미 산하 푸와이 병원(푸와이 병원)의 판샹빈 연구팀은 "이중 스펙트럼 특징과 시각 변환기 모드를 기반으로 한 심음 분류"라는 제목의 연구 논문을 알렉산드리아 공학 저널에 온라인으로 게재했습니다.본 연구에서는 이중 스펙트럼에서 영감을 얻은 특징 추출과 시각 변환기 모델을 기반으로 심음의 이진 분류를 달성했습니다.
이 모델은 전체 인구(임신 환자와 비임신 환자 포함)에서 우수한 분류 결과를 보여주었으며, 진단 성능은 인간 전문가보다 뛰어나 큰 응용 잠재력을 보여주었습니다.
2023년 10월, Clinical Medicine 저널에 발표된 새로운 연구 데이터에 따르면 ECG-AI는 석회화 및 막힘과 같은 관상 동맥 질환의 징후와 과거 심장마비의 증거를 식별함으로써 현재 위험 계산기 방정식보다 몇 년 일찍 일부 위험을 표시할 수 있다고 합니다.
최근, Caristo Diagnostics라는 영국 회사가 The Lancet에 획기적인 임상 연구 결과를 발표했습니다.CaRi-Heart AI 기술은 관상동맥 염증의 심각도를 정량화하고 심장병을 정확하게 예측합니다.

카리스토는 2018년 옥스퍼드 대학의 심장내과 의사들에 의해 설립되었습니다. 이 회사는 50년 전에 중요한 연구 발견을 했습니다. 심장마비는 관상동맥의 염증으로 인해 발생하지만 임상의들은 일상적인 심장 검사를 통해 염증을 관찰하고 측정할 수 없었습니다.이제 CaRi-Heart 기술을 사용할 수 있습니다. CTTA 스캔에서 이 정보를 추출합니다.이는 심장병을 예측, 예방, 관리하는 기존 접근 방식을 근본적으로 바꾸는 과학적 혁신입니다. CaRi-Heart는 영국, 유럽, 호주에서 임상적으로 사용된 것으로 알려졌습니다.
미래를 내다보면, 인공지능은 임상 진단 및 치료, 특히 심혈관 질환의 예방 및 치료 분야에서 엄청난 발전 잠재력을 가지고 있습니다. 이를 통해 의사는 환자에게 정확한 진단과 조언을 보다 효율적이고 안정적으로 제공할 수 있게 됩니다.
참고문헌:
1.https://m.chinacdc.cn/jkzt/mxfcrjbhsh/jcysj/201909/t20190906_205347.html
2.https://mp.weixin.qq.com/s/daqoXwnxeZxw7xC6iw1h3A
3.https://www.drvoice.cn/v2/article/12166
4.https://36kr.com/p/280080595174