HyperAI초신경

ECCV 2024에 선정되었습니다! Zhejiang University와 Microsoft Research Asia는 의료 데이터 이질성 장벽을 허물기 위해 통합 의료 이미지 사전 훈련 프레임워크 UniMedI를 제안합니다.

特色图像

AI가 특정 조건 하에서 인간과 유사한 대응 능력을 갖도록 하여 특정 작업을 수행하는 데 있어 인간을 효율적으로 대체할 수 있도록 하는 것은 AI 분야 연구자들의 끊임없는 노력입니다. 의료 영상과 인공 지능의 교차점에서처럼, 시각 언어 사전 학습(VLP)을 기반으로 하는 심층 모델은 자동화된 특성 덕분에 많은 수의 이미지와 해당 텍스트 데이터 세트로 사전 학습이 가능하며, 새로운 이미지에서 관련 기능을 자동으로 추출하는 방법을 학습할 수 있어 시간과 노동 집약적인 수동 주석 작업의 필요성을 효율적으로 해결할 수 있습니다.

그러나 VLP가 의료 분야에서 어느 정도 성공을 거두었음에도 불구하고, 적용 분야의 데이터 규모를 더욱 확장하는 데는 여전히 많은 과제에 직면해 있습니다.

첫째, 기존 모델의 학습은 대부분 단일 모달 데이터(주로 X선과 같은 2D 이미지)를 기반으로 하며, 이는 다중 모달 이미지(CT 및 MRI 이미지 등과 같은 2D 및 3D 이미지 포함)를 포함하는 실제 의료 시나리오와 일치하지 않습니다. 둘째, 다양한 의료 영상의 본질적인 이질성도 효과적인 협업과 통합을 방해합니다. 또한, 다양한 의료 영상 모달리티의 데이터는 차원적 차이가 있으며, 쌍을 이루는 데이터가 부족합니다. 그러므로,통합 모델을 구축하고 다양한 모달 데이터를 공통 공간에 효과적으로 매핑하여 공동 학습을 달성하는 방법은 매우 어려운 주제가 되었습니다.

위의 문제를 해결하기 위해서는,저장대학의 후하오지 팀과 마이크로소프트 리서치 아시아의 추릴리 팀은 새로운 통합 의료 이미지 사전 학습 프레임워크인 UniMedI를 제안했습니다.진단 보고서를 공통적인 의미 공간으로 사용하여 다양한 모달리티의 의료 이미지에 대한 통합된 표현을 생성합니다. 또한, "가상 쌍"을 생성하는 기술도 소개합니다. 텍스트의 안내에 따라,UniMedI는 복잡한 3D 이미지에서 텍스트와 관련된 2D 슬라이스를 선택할 수 있으며, 이는 2D 및 3D 데이터를 연결하는 가상 쌍으로 작용하여 다양한 의료 영상 모달리티 간의 일관성을 향상시키고 의료 다중 모달 이미지를 효과적으로 통합합니다.

관련 연구 결과는 "언어 기반 공통 의미 공간에서의 통합 의료 이미지 사전 학습"이라는 제목으로 발표되었으며, 컴퓨터 비전 및 머신 러닝 분야의 최고 학회인 ECCV 2024에 포함되었습니다.

정상회담에 대한 자세한 내용을 보려면 아래 링크를 클릭하세요.

https://go.hyper.ai/0wtVi

연구 하이라이트:
* 실험에서 UniMedI는 다양한 데이터세트에 대한 2D 및 3D 이미지에서 뛰어난 성능을 입증했으며 이미지 분류, 분할 및 검색과 같은 광범위한 의료 작업에서 탁월한 성과를 보였습니다. 

* UniMedI는 2D 및 3D 이미지를 통합된 방식으로 수집하여 의료 분야의 데이터 부족 문제를 해결할 수 있습니다.


서류 주소:
https://eccv.ecva.net/virtual/2024/poster/1165
공식 계정을 팔로우하고 "의료 이미지 사전 학습 프레임워크"에 답글을 남겨 전체 PDF를 받으세요.

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

실제 의료 데이터, 효과적인 검증 프레임워크

UniMedI 프레임워크를 사전 학습하는 데 사용된 데이터는 2D X선 데이터 세트 MIMIC-CXR 2.0.0의 JPG 버전과 3D CT 스캔 데이터 세트 BIMCV에서 가져왔습니다.

연구진은 이 중 2D 데이터 세트를 모든 측면 이미지를 제거하여 정면 이미지만 사용하는 하위 작업에 맞춰 사전 처리했습니다. 동시에 데이터 세트의 완전성을 유지하기 위해 3개 문장 미만의 2D 및 3D 데이터 세트에 대한 짧은 보고서는 실험에 사용되지 않았습니다.

이미지 측면에서 2D 이미지의 크기는 224×224이고, 3D 이미지의 크기는 128×128×32입니다.

연구팀은 배치 크기가 144인 8개의 Tesla V100 GPU에서 UniMedI 프레임워크를 50번 사전 훈련했습니다.

실험적 평가에서 연구팀은 먼저 2D 및 3D 데이터 세트에 대한 의료 이미지 분류를 수행했습니다.대표적인 2D 데이터 세트는 3개가 있습니다. 191,229개의 정면 흉부 방사선 사진을 포함하는 CheXpert; 약 29,700장의 정면 흉부 방사선 사진을 포함하는 RSNA 폐렴 2단계 버전 2,800명 이상의 환자로부터 얻은 16,490개의 COVID-19 양성 이미지.

그런 다음 팀은 두 가지 대표적인 3D 데이터 세트를 분류했습니다.각각 CC-CCII와 LUNA 16입니다. 그 중 CC-CCII는 2,698명의 환자를 대상으로 한 3,993건의 검사에서 얻은 340,190개의 슬라이스를 포함하는 Clean-CC-CCII 버전을 사용했습니다. LIDC-IDRI 기반으로 구축된 LUNA 16에는 주석이 달린 888개의 CT 스캔이 들어 있습니다. 이 실험에서는 슬라이스 두께가 3mm 이상인 CT 스캔을 LIDC-IDRI 데이터베이스에서 삭제했습니다.

계층화된 협업 메커니즘으로 데이터 장벽 해소

본 연구에서 제안된 UniMedI는 시각-언어 사전 훈련 프레임워크이다. 의료 영상과 해당 텍스트 보고서는 각각 비전 인코더와 텍스트 인코더라는 두 개의 인코더로 인코딩된 후 VL(Vision-Language) 대조 학습을 통해 공동으로 학습됩니다. UniMedI는 통합된 방식으로 2D 및 3D 이미지를 효율적으로 수집하여 의료 분야의 데이터 부족 문제를 해결할 수 있다는 점에서 독보적입니다. UniMedI의 전반적인 프레임워크는 아래 그림의 왼쪽에 표시되어 있습니다.

UniMedI 전체 프레임워크: 왼쪽은 전체 프로세스이고 오른쪽은 핵심 디자인입니다.

실험에서 사용된 시각적 인코더는 ViT-B/16으로, 주로 2D 및 3D 시각적 데이터의 공통적인 특징 공간에서 표현을 추출합니다. 텍스트 인코더는 BioClinicalBERT를 사용하여 텍스트 기능을 인코딩합니다. 시각적 인코더와 텍스트 인코더는 2D 및 3D 데이터에서 모두 보편적입니다.

2D와 3D 이미지 데이터가 짝을 이루어 존재하지 않는다는 과제를 극복합니다.연구팀은 UniMedI에서 "가짜 페어링"을 생성하는 방법을 도입했는데, 이는 새로운 언어 기반 주의 슬라이스 선택 전략을 기반으로 설계되었습니다.

예를 들어, 입력이 3D 이미지인 경우 보고서와 가장 관련성이 높은 2D 슬라이스의 일부를 추출한 다음, 선택된 슬라이스를 2D 이미지로 간주하여 2D-3D 이미지의 가상 페어링 관계를 형성합니다. 그 후, 선택된 2D 슬라이스를 원래 3D 이미지와 함께 네트워크에 공급하여 해당 슬라이스와 보고서 간의 관계를 공동으로 학습하고 최종적으로 통합된 피처 공간을 형성합니다. 입력이 2D 이미지인 경우 슬라이스 선택 프로세스는 생략됩니다.

그 후, 시각적 인코더가 모든 멀티모달 이미지(원본 2D 및 3D 이미지와 선택된 2D 슬라이스 포함)를 표현 공간에 매핑합니다. 시각적 인코더에는 각각 2D 및 3D 이미지에 대한 레이블러 T가 있습니다.2디와 티3D 및 더 나은 통합을 위한 공유 백본 E다섯 . 시각적 인코더와 텍스트 인코더 Eₗ로 구성된 모델은 대조 학습 손실 Lᵥₗ를 통해 VLP에서 종단 간 학습됩니다. 이 과정에서 2D 및 3D 이미지가 모두 보고서의 언어 정보로 감독되는 공통 의미 공간으로 인코딩될 수 있습니다.

본 연구에서는 의료 영상 자체의 멀티모달 데이터와 일부 공유된 공공 정보를 최대한 활용하기 위해 마스킹과 복원이라는 보조 작업 설계를 도입하고, 자가 증류 방법을 사용하여 작업을 완료했습니다.이를 통해 2D 및 3D 이미지 토큰이 서로 통신할 수 있으며, 차원 간 상호작용과 다중 모드 이미지의 통합이 향상됩니다.

UniMedI의 주요 특징 중 하나는 주의 슬라이스 선택 전략과 VL 대조 학습의 상승효과입니다.

* 한편으로는,VL 대조 학습은 언어 감독을 가능하게 하며, 이는 시각적 CLS 토큰에 직접 적용됩니다. 이 토큰은 보고서의 중요한 정보를 담고 있으므로, 2D 슬라이스 선택의 기초인 시각적 CLS 토큰의 주의 가중치는 보고서의 감독 정보를 전달하고 3D 피처와 함께 공동 피처 공간을 구성합니다.

* 반면에,신중하게 슬라이스를 선택하면 쌍으로 된 데이터가 없더라도 더욱 통합된 2D 및 3D 피처 공간이 생성됩니다. 이러한 공통 공간은 의료 이미지와 보고서 간의 자세한 정보를 확대할 수 있으며, 이런 방식으로 이미지와 보고서 간의 정렬을 촉진합니다. 이 두 가지 디자인은 다중 모드 이미지의 표현을 결합하고 동시에 보고서 표현 공간에 가깝게 만들어 공통 의미 공간을 구성할 때 1 더하기 1이 2보다 큰 효과를 얻습니다.

다각도 실험 평가 결과 UniMiss보다 성능이 뛰어난 것으로 나타났습니다.

UniMedI에 대한 포괄적이고 효과적인 평가를 실시하기 위해 본 연구에서는 다각도 관찰을 설정하고 다양한 의료용 VLP 방법과의 비교 분석을 통해 성능과 효과를 검증했습니다.

연구팀은 먼저 UniMedI를 X선 및 해당 의료 보고서에 맞춰 개발된 ConVIRT, GLoRIA, MGCA, LOVT, PRIOR 등의 방법과 비교했습니다. 그런 다음 연구팀은 UniMedI를 UniMiss와 Joint를 포함한 여러 2D 및 3D 공동 학습 방법과 비교했습니다.

선형 분류 실험 결과는 다음과 같습니다.2D 의료 영상 분류 실험 결과(아래 참조)에서, ViT를 시각적 인코더로 사용하는 최첨단 MGCA(ViT-b/16) 방법과 비교했을 때, UniMedI는 서로 다른 교육 데이터(1%, 10%, 100%)에서 세 가지 2D 의료 영상 분류에서 가장 좋은 성능을 보였습니다.

* 선형 분류 실험: UniMedI의 표현 능력을 평가하는 데 사용됨

비교해 보면 CheXpert 데이터 세트에서 UniMedI의 AUROC는 각각 +0.6%, +0.6% 및 +0.8%만큼 개선되었습니다. RSNA 데이터 세트의 AUROC는 각각 +0.9%, +0.5% 및 +0.7%만큼 개선되었습니다. COVID 데이터 세트의 AUROC는 각각 +5.5%, +7.6%, +2.3%만큼 개선되었습니다. 실험 결과는 제안된 알고리즘의 효과를 보여줍니다.

1%, 10% 및 100% 교육 데이터를 사용한 CheXpert, RSNA 및 COVID 데이터 세트에 대한 2D 선형 분류 결과

3D 의료 영상 분류 실험 결과(아래 표시)에서 가장 진보된 UniMiss와 비교했을 때 UniMedI는 CC-CCII 데이터 세트에서 각각 +22.6%, +2.0%, +0.8%의 ACC 이득을 개선했습니다. 이러한 데이터는 UniMedI의 데이터 효율성과 효과성을 검증합니다.

1%, 10% 및 100% 학습 데이터를 사용한 CC-CCII의 3D 선형 분류 결과

동시에 전체 시각 인코더가 완전한 교육 데이터로 미세 조정되면 UniMedI는 CC-CCII 및 LUNA를 포함한 여러 3D 의료 이미지 데이터 세트에서 다른 방법보다 우수한 성능을 발휘합니다.

아래 그림에서 볼 수 있듯이 CC-CCII 데이터 세트에서 UniMedI의 ACC 값은 93.8%이고, LUNA2016-v2 데이터 세트에서 ACC 값은 95.9%입니다. 이는 2D 및 3D 의료 영상 분류 작업 모두에서 상당한 일반화 능력을 보여주며, 이 프레임워크가 3D CT 영상의 보편적인 특징을 추출할 수 있는 능력을 갖추고 있음을 나타냅니다.

전체 교육 데이터를 사용한 CC-CCII 및 RICORD 데이터 세트에 대한 3D 미세 조정 결과

의학적 의미 분할 실험 결과는 다음과 같습니다.2D 의료 의미 분할 결과에서 UniMedI는 현재 최첨단 MGCA 알고리즘보다 훨씬 더 나은 것으로 나타났습니다. 1%의 훈련 데이터를 사용할 때 UniMedI는 67.8%의 Dice를 달성했습니다. 아래 그림에서 볼 수 있듯이, 3D 의료 의미 분할 결과에서 UniMedI는 제한된 라벨 가용성이 40%와 100%일 때 BCV 데이터 세트에서 UniMiss보다 각각 0.6%와 0.4%만큼 정확도를 향상시켰습니다.

* 의학적 의미 분할 실험: RSNA 폐렴 정면도 흉부 방사선 사진과 BCV 데이터 세트(CT 스캔 50개 포함)를 사용하여 분할 성능을 평가하는 데 사용되었습니다.

이러한 결과는 UniMedI가 의미 있는 특징을 추출하고 제한된 주석 데이터를 효과적으로 활용하는 데 있어 매우 뛰어나다는 것을 입증하며, 의미 분할 작업을 위한 로컬 표현을 활용하는 데 있어 더 뛰어난 능력을 보여준다.

기술은 VLP와 의료 영상 간의 유대감을 더욱 강화하는 데 도움이 됩니다.

시각 언어 사전 학습 모델은 특히 의료 영상 분야에서 컴퓨터 비전과 자연어 처리를 연결하는 중요한 다리 역할을 하고 있습니다. 대규모 시각 및 언어 데이터에 대한 사전 학습을 통해 복잡한 의료 이미지와 텍스트 간의 복잡한 관계를 쉽게 파악하여 의사의 영상 진단을 지원하고, 기업의 약물 연구 개발에 도움을 주거나 지능형 의료 이미지 관리를 실현할 수 있습니다.

이 연구가 주요 국제 학회에 선정되었다는 사실은 인공지능과 의료 영상의 교차점에서 VLP가 엄청난 잠재력을 가지고 있다는 것을 또 다른 관점에서 입증합니다.사실, 저장대학과 마이크로소프트 아시아 연구팀의 강력한 협력 외에도, 이미 많은 연구실에서 이 분야에서 획기적인 성과를 거두었습니다.

예를 들어, 위 연구에서 언급된 고급 방법 중 하나인 UniMiss는 애들레이드 대학과 노스웨스턴 폴리테크닉 대학 컴퓨터 과학부의 팀에 의해 2022년 ECCV 올해의 논문으로 출판되었으며, 제목은 "UniMiss: 차원 장벽을 깨는 보편적인 의료 자기 지도 학습"입니다.

서류 주소:
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

이 연구에서 저자는 3D 데이터 부족을 보완하기 위해 많은 수의 2D 이미지를 사용하는 것을 옹호하며, UniMiss라는 일반적인 의료 자기 감독 표현 학습 프레임워크를 구축하는 것을 목표로 합니다.실험 결과에 따르면 UniMiss는 ImageNet 사전 학습 및 기타 고급 SSL(자기 감독 학습) 경쟁자보다 훨씬 우수한 것으로 나타났습니다. 2D/3D 의료 영상 분석 작업에서는 분할과 분류 모두 만족스러운 결과를 얻었습니다.

그뿐만 아니라, 올해 7월 연구팀은 UniMiss에 대한 새로운 연구를 진행했고 UniMiss+를 제안했습니다. 현재 관련 결과는 "UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data"라는 제목으로 유명한 국제 저널인 IEEE Transactions on Pattern Analysis and Machine Intelligence에 게재되었습니다.

서류 주소:
https://ieeexplore.ieee.org/document/10617802

최신 연구에서 연구팀은 UniMiss+에 디지털로 재구성된 X선 필름 기술을 도입하여 CT 스캔의 X선 이미지를 시뮬레이션하고 CT와 X선 이미지 데이터에 접근했습니다. 이는 이전 세대의 UniMiss에 비해 엄청난 개선입니다.

간단히 말해, 인공지능과 의료영상을 통합한 관련 과학 연구는 아직 한창 진행 중이다. 시간이 지나면서 이러한 성과는 응용 프로그램으로 전환되어 실제 의료 시나리오에 구현되어 의료진, 환자, 기업 모두에게 도움이 되는 새로운 도구가 될 것입니다.