CVPR 2025에 선정되었습니다! 심천대학교 연구팀은 다중섹션 심초음파를 정확하게 분할할 수 있는 EchoONE을 제안했습니다.

심혈관 질환으로 인한 사망은 중국 거주자의 주요 사망 원인입니다. 심장초음파는 비침습성, 낮은 비용, 실시간 영상 촬영 등의 장점으로 인해 임상에서 가장 널리 사용되는 심장 검사 방법 중 하나가 되었습니다. 실제 수술에서 초음파 의사는 심장을 다양한 위치와 각도에서 스캔하여 여러 단면의 초음파 영상을 얻은 다음, 단면을 결합하여 심장의 구조와 기능을 분석해야 합니다. 여기에는 심근 윤곽을 식별하고 각 심실의 크기를 측정하는 것이 포함됩니다.
그러나 다양한 슬라이스 간의 구조적 차이가 크기 때문에 기존 분할 모델은 다중 슬라이스 그래프에 대한 일반화 기능이 약하고 일반적으로 각 슬라이스에 맞게 개별적으로 사용자 정의해야 하므로 반복 개발에 많은 비용이 듭니다. 또한 특정 섹션의 모델을 다른 섹션에 적용할 경우 성능이 크게 떨어지는 경우가 많아 임상에서의 홍보 및 활용이 제한됩니다.
이에 대해 선전대학교 의학대학 생체공학과 의료초음파영상컴퓨팅연구실(MUSIC), 선전대학교 빅데이터 국가공정연구실, 선전인민병원 초음파과 연구팀은 다중섹션 심장초음파 통합 분할 모델인 EchoONE을 제안했습니다. 이 모델은 자연적 이미지 분할 대형 모델 SAM 미세 조정 기술과 심장 초음파 단면에 대한 기존 지식을 결합합니다.이 기술은 다단면 심장초음파 검사의 심장 구조를 정확하게 세분화하여 설계 모델의 복잡성을 효과적으로 줄일 수 있습니다.의사가 심장 기능을 더욱 효율적으로 평가할 수 있도록 돕습니다.
"EchoONE: 하나의 모델에서 여러 개의 심장초음파 평면 분할"이라는 제목의 연구는 2025년 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에 선정되었습니다.
연구 하이라이트:
* 구조적 차이가 큰 다중 단면 심초음파를 정확하게 분할할 수 있는 통합 모델을 성공적으로 개발
* 사전에 구성 가능한 마스크 학습 모듈(PC-Mask)은 의미적으로 인식 가능한 밀집 신호를 생성하기 위해 제안되었으며, 로컬 기능 융합 및 적응 모듈(LFFA)은 SAM 아키텍처를 적응시키기 위해 도입되었습니다. 이를 통해 EchoONE은 상당히 다른 데이터 분포와 모호한 경계를 가진 다양한 섹션의 심장초음파를 처리하는 데 우수한 성능을 발휘합니다.
* EchoONE 모델의 성능은 미세 조정을 기반으로 한 다른 많은 대형 모델보다 우수하며 외부 테스트 세트에서도 최고의 성능을 달성합니다.

서류 주소:
https://arxiv.org/abs/2412.02993
오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 3개의 대규모 공개 데이터 세트 + 22,044개의 비공개 이미지 주석 쌍
이 연구에서는 여러 센터의 다부문 심장초음파 검사를 사용했습니다.개인 및 공공 데이터세트가 포함됩니다.
공개 데이터 세트에는 CAMUS, HMC_QU, EchoNet_Dynamic이 포함됩니다. CAMUS는 이 분야에서 널리 사용되는 심장 초음파 데이터 세트입니다. 이 데이터는 프랑스의 여러 병원에서 수집되었으며 500건의 2심실 심장(2CH) 및 4심실 심장(4CH) 데이터가 포함되어 있습니다. HMC_QU 데이터 세트는 Hamad Medical Corporation(HMC), 탐페레 대학교, 카타르 대학교의 협력으로 만들어졌습니다. EchoNet-Dynamic 데이터 세트는 스탠포드 대학에서 만들어졌습니다. 이 연구에서는 비교 분석을 용이하게 하기 위해 외부 테스트 실험에만 테스트 세트를 사용했습니다.
* CAMUS 심장 초음파 이미지 데이터 세트 다운로드:
https://hyper.ai/cn/datasets/38453
* HMC-QU 심장 의료 영상 데이터 세트 다운로드:
https://hyper.ai/cn/datasets/38456
개인 데이터 세트는 여러 국내 협력 병원의 초음파 데이터에서 얻은 것으로, 2심실 심장(2CH), 3심실 심장(3CH), 4심실 심장(4CH)의 세 가지 다른 수평 단면과 흉골 옆 좌심실 단축(PSAX)을 포함하여 총 22,044개의 이미지 주석 쌍을 포함하고 있습니다.
모델 아키텍처: SAM을 기반으로 하는 EchoONE 모델은 세 가지 주요 구성 요소로 구성됩니다.
EchoONE의 전반적인 프레임워크는 주로 SAM 기반 세분화 아키텍처, 밀도 있는 프롬프트를 생성하기 위한 구성 요소 그리고 SAM을 조정하고 적응시키기 위한 CNN 기반 로컬 기능 분기.전체 네트워크 아키텍처는 원래 SAM을 기반으로 구축되었습니다.트랜스포머 기반 이미지 인코더와 마스크 디코더, 스파스 큐 인코더, 그리고 고밀도 큐잉을 위한 마스크 인코더가 포함되어 있습니다.

또한 연구진은 SAM의 특정 작업에 대한 적응성을 강화하기 위해 Ladder Side Tuning(LST) 분야에 Local Feature Fusion and Adaptation Module(LFFA)을 도입했습니다. 동시에 그들은 의미적으로 인식 가능한 밀집 신호를 생성하기 위해 클러스터링 기반의 사전 구성 가능 마스크 학습 모듈(PC-Mask)을 제안했습니다. PC-Mask와 LFFA의 세부 사항은 다음과 같습니다.
(a) PC-Mask 모듈
고밀도 마스크 힌트는 포인트 및 박스 힌트보다 SAM에 더 풍부한 정보를 제공하고, PC-마스크 모듈은 자동으로 고품질 마스크 힌트를 생성할 수 있습니다. 여러 슬라이스에서 의미 구조의 다양성을 처리하기 위해 연구진은 먼저 여러 슬라이스의 이미지를 잠재 특징 공간에서 K 클러스터로 그룹화했습니다. 각 클러스터의 중심은 잠재 공간에서 클러스터의 프로토타입으로 사용됩니다. 비슷하게,중앙 마스크는 클러스터에 할당된 이미지의 마스크를 평균화하여 얻을 수 있습니다.

이러한 마스크 센터를 사전 구조로 사용하여,연구자들의 목표는 슬라이스 유형에 대한 정보 없이 각각의 새로운 이미지에 대해 심근 부위에 대한 밀도 있는 힌트를 생성하는 것이었습니다.입력 이미지의 경우, 이러한 프로토타입과의 유사성(또는 거리)은 잠재 공간에서의 위치를 나타내는 데 사용됩니다. 그런 다음 유사성을 가중치로 사용하여 이러한 사전 센터를 다중 채널 사전 임베딩으로 결합하고 마지막으로 경량 U-Net에 입력하고 출력 결과를 SAM의 고밀도 프롬프트로 사용합니다. 이 과정은 Dice Loss와 BCE Loss를 사용하여 제한됩니다.
(b) LFFA 모듈
SAM의 역량을 최대한 활용하고 재교육과 자원 낭비를 피하기 위해, 새로운 시나리오에 적응하도록 SAM을 조정하는 보조 부서가 필요합니다. 연구자들은 세 부분으로 구성된 학습 가능한 CNN 분기를 설계했습니다. 첫 번째는 로컬 기능 추출을 위한 잔여 블록입니다. 두 번째는 이미지 인코더의 교차 브랜치 어텐션을 조정하기 위한 CNN 블록입니다. 세 번째는 마스크 디코더를 특정 작업에 맞게 조정하는 로컬 기능 융합 변환기 블록입니다.
마스크 디코더에서는 원래 SAM의 두 개의 변압기 블록 외에도연구자들은 또한 3개의 학습 가능한 블록을 추가했습니다.지역적 특성의 융합에 적응합니다. 이미지 인코더의 CNN 블록의 각 계층에서 분기 전체에 걸쳐 발견되는 로컬 특징은 마스크 디코더의 해당 변압기 블록에 연결되고, 각 계층의 특징은 LFFA 모듈을 통해 융합됩니다. 그 과정은 아래와 같습니다.

실험 결론: EchoONE은 심장초음파의 다중 평면 분할 작업에서 정확하고 견고합니다.
연구자들은 내부 및 외부 데이터 세트를 모두 사용하여 광범위한 실험을 수행했습니다.이는 EchoONE의 효과를 증명합니다.
다양한 측면의 작업에 대한 견고성: 다음 표는 내부 테스트 세트의 다양한 측면에서 모델의 성능을 요약한 것입니다. EchoONE이 CNN, Transformer, SAM 기반 모델을 비교하는 것을 볼 수 있습니다.평균 Dice, IoU 및 HD95 지표 측면에서 가장 좋은 결과를 달성했습니다.

다양한 심장 구조에 대한 견고성: 아래 레이더 차트에서 볼 수 있듯이 이전 모델과 비교했을 때,EchoONE 모델은 심장의 각 구조(좌심방, 좌심실, 심근)에서 더 높은 Dice 값을 얻었습니다.

교차 센터 데이터에 대한 견고성:다음 그림과 표는 EchoONE이 5개의 내부 센터로 구성된 테스트 세트에서 가장 좋은 성능을 달성한다는 것을 보여줍니다.


외부 검증 : 아래 그림과 같이 학습 중 보이지 않았던 두 개의 외부 테스트 세트도EchoONE은 여전히 강력한 일반화 성능을 보여줍니다.노이즈가 뚜렷하고 이미지 품질이 낮은 HMC_QU의 경우, EchoONE은 73.94%의 Dice 점수를 제공하여 실제 임상에서 큰 잠재력을 가지고 있음을 보여줍니다.

시각적 분석: 시각화 결과를 비교하면 다음 사항도 확인할 수 있습니다.EchoONE은 합리적인 분할 영역을 제공할 뿐만 아니라, 윤곽선 정제에서도 뛰어난 결과를 보여줍니다.이는 서로 다른 슬라이스에 대해 거친 분할 결과를 생성하여 모델이 영역에 초점을 맞추고 경계를 세분화하여 분할 결과를 개선하기 때문입니다.

절제 실험 결과: 연구진은 PC-Mask와 LFFA 모듈이 모델 성능을 개선하는 데 미치는 효과를 더욱 자세히 연구하기 위해 5개의 내부 데이터 세트에 대한 절제 실험을 수행했습니다. 결과로부터,이 두 모듈은 각각 사전 지식을 활용하고 의미적으로 인식되는 방식으로 로컬 기능을 융합하여 SAM 아키텍처를 최적화합니다.이를 통해 EchoONE은 심장초음파의 다중 슬라이스 분할 문제에 대해 정확하고 견고한 성능을 달성할 수 있습니다.

이 연구는 다른 의료 영상 방식으로 확장될 수 있습니다.
EchoONE 모델은 혁신적인 고밀도 큐 학습 모듈인 PC-Mask를 도입하여 다중 슬라이스 분할의 복잡한 과제를 해결하는 것을 목표로 합니다. 이 모듈은 구성 가능한 방식으로 기존의 구조적 지식을 활용하고 분할 과정에서 효과적인 슬라이스별 의미적 지침을 제공합니다. 또한, 이 연구에서는 이미지 인코더를 최적화하고 마스크 디코더를 적용하기 위해 학습 가능한 CNN 로컬 기능 분기를 제안했습니다. LFFA 모듈은 최종 성능을 향상시켰을 뿐만 아니라 수렴 속도도 가속화했습니다.
이는 단일의 견고한 모델을 사용하여 모든 심장초음파 단면을 효과적으로 세분화하는 최초의 제안된 방안으로, 임상 실무에서 인공 지능 기술을 적용하는 것을 단순화합니다.현재는 초음파 영상에서만 검증되었지만, 이 접근 방식은 다중 슬라이스 분할 문제를 처리하기 위해 다른 의료 영상 방식으로 확장될 가능성이 있습니다. 앞으로 연구자들은 더 많은 측면의 일반화 능력을 개선하고 다면적인 비디오에 대한 강력한 모델을 구축하는 데 집중할 것입니다.
이 연구 프로젝트의 책임자인 쉐 우펑(Xue Wufeng)은 선전대학교 의학부 생체공학과 출신이라는 점도 언급할 가치가 있습니다. 그의 팀은 오랫동안 심장 구조/기능/혈류 모델링, 기본 심장 모델, 대형 그래픽 모델 등을 포함한 심장 의료 영상 및 인공지능에 대한 연구를 수행해 왔습니다. 방문 학생, 박사후 연구원, 연구자 등의 참여를 환영합니다. 관심 있는 분은 "xuewf@szu.edu.cn"으로 Xue Wufeng 교수에게 문의하시기 바랍니다.
* Xue Wufeng의 개인 홈페이지:
https://bme.szu.edu.cn/info/116