구글, 미국과 일본 627명 환자 임상 데이터 분석 결과 AI 기반 폐암 검진 효과 확인

2024년 2월, 중국 국립암센터는 종양 등록 및 추적 모니터링에서 얻은 최신 데이터를 바탕으로 "2022년 중국의 암 발생률 및 사망률" 보고서를 편찬했습니다. 보고서에 따르면, 우리나라에서는 폐암이 악성 종양으로 인한 발병률과 사망률의 주요 원인으로 남아 있습니다.의료계가 폐암에 대한 관심을 점차 높이고 있지만, 폐암의 진단과 치료에 있어서는 늦은 진단, 과도한 치료 등 여전히 많은 임상적 문제가 있습니다.지난 10년 동안 AI는 알고리즘 개선, 컴퓨팅 성능 향상, 사용 가능한 데이터 확장, 적용 범위의 엄청난 성장 등으로 인해 전례 없는 속도로 기술 개발 방향을 선도하고 있습니다.
AI 연구 개발 분야에서 세계에서 가장 진보된 기술 거대 기업 중 하나인 Google은 AI 및 의료 응용 프로그램 연구 분야에서 큰 성과를 거두었습니다. 최근, Google Research의 소프트웨어 엔지니어인 아틸라 키랄리와 Google Research의 제품 관리자인 로리 필그림은 머신 러닝 모델이 방사선과 의사에게 연구 결과를 효과적으로 전달하는 방법을 연구했습니다.특정 워크플로 설정, 장치, 국가별 지침 및 점수 매기기/관리 프로토콜에서 일반화된 인공 지능 지원 시스템이 폐암 검진(LCS) 워크플로에 미치는 영향을 평가합니다.해당 연구 논문은 Radiology AI 저널에 게재되었습니다.
연구 하이라이트:
* AI 기반 폐암 검진 워크플로우를 개발 및 최적화하고 미국과 일본에서 테스트했습니다.
* 인공지능의 도움으로 민감도가 크게 감소하지 않고도 5%-7%만큼 특이성을 높일 수 있습니다.
* 인공지능의 도움으로 각 사례에 대한 평균 스크리닝 시간이 14초 단축되고 의사의 진단 신뢰도가 크게 향상됩니다.

서류 주소:
https://doi.org/10.1148/ryai.230079
공식 계정을 팔로우하고 "Google 폐암"이라고 답글을 달면 전체 PDF를 받을 수 있습니다.
연구 범위: 인공지능 지원 스크리닝, 미국과 일본에서 진행된 후향적 다국적 연구
이 연구에서는 5개의 독립적인 데이터 세트(DS_CA, DS_NLST, DS_US, DS_JPN)를 사용하여 미국과 일본에서 총 627건의 저선량 흉부 CT 사례(141건의 암 양성 사례 포함)를 분석했습니다.그중 미국에서 실시한 연구에는 191명의 남성과 139명의 여성을 포함해 총 330명의 환자가 참여했으며, 이들의 중앙 연령은 63세였습니다. 일본에서 실시된 연구에는 217명의 남성과 80명의 여성을 포함하여 총 297명의 환자가 참여했으며, 환자의 중앙 연령은 58세였습니다. 양성 사례는 2년 이내에 폐암의 병리학적 진단을 받은 경우로 정의되고, 음성 사례는 최소 2년 이내에 확진된 암 진단을 받지 않은 경우로 정의됩니다.

동시에,이 연구에는 미국 전문의 자격을 갖춘 흉부 방사선 전문의 6명과 CT 흉부 검사를 판독한 경험이 있는 일본 전문의 자격을 갖춘 방사선 전문의 6명이 포함되었습니다.이 연구에서는 모든 사례의 CT 스캔을 12명의 의사가 AI의 도움을 받은 경우와 받지 않은 경우 한 번씩 검토했으며, 그 결과 총 7,254개의 해석이 도출되었습니다. 국가별 채점 시스템의 경우, 미국의 방사선과 의사들은 미국 방사선과 학회 지침의 Lung-Rads 점수(버전 1.1)를 사용했고, 일본의 방사선과 의사들은 센다이 채점 시스템을 사용했습니다.
암 양성 사례 141건 중 124건은 미국에서 발생했고 17건은 일본에서 발생했습니다. 이 중 미국의 양성 환자의 결절 상황을 보면 고형 결절이 69개(56%), 부분 고형 결절이 15개(12%), 비고형 결절이 20개(15%), 미분류 결절이 29개(23%)로 나타났다.
마찬가지로 일본의 양성 사례 중 6건(35%)은 고형 결절이었고, 6건(35%)은 부분 고형 결절이었고, 5건(29%)은 비고형 결절이었습니다. 암 음성 사례 중에서 다양한 크기의 결절의 수도 선택되어 이전 사례의 비율이 암 사례의 비율과 일치하도록 했습니다.
모델 분석 : 기존 모델의 개선을 기반으로 통계 분석 능력이 대폭 향상됩니다.
연구의 첫 번째 단계는 추가적인 훈련 데이터와 아키텍처를 사용하여 이전에 개발된 머신 러닝 모델을 개선하는 것이었습니다.
폐암 보조 검진 시스템은 서로 조정되는 13개 모델로 구성되어 있습니다. 먼저 폐를 분할하여 전반적인 평가를 실시하고 의심스러운 부위 세 곳을 찾습니다. 이 정보는 각 영역에 의심 등급을 부여하는 데 사용됩니다. 이 시스템은 Google Cloud에 배포된 Google Kubernetes Engine(GKE)을 사용하여 이미지를 수집하고, 머신 러닝 모델을 실행하고, 결과를 제공합니다.
간단히 말해서, 시스템 출력은 의사가 해당 지역의 채점 지침에 따라 결정을 내릴 수 있도록 의심 등급과 ROI(관심 영역)를 제공합니다.

두 번째 단계에서 연구진은 DS_CA, DS_US, DS_NLST라는 세 가지 데이터 세트를 사용하여 모델을 개발하고 학습시켰습니다.
훈련 세트:
* DS_CA는 2010년부터 2017년까지의 진단용 CT 검사로 구성된 캐나다 병원 시스템의 데이터이며, 최종 분류 모델을 훈련하는 데 사용됩니다.
* DS_US 환자의 비선별 CT는 추가 교육에 사용되었습니다.
* DS_NLST는 26,722명의 환자로 구성되었으며, 환자 수준에서 무작위로 나누어 얻은 하위 집합을 사용하여 AI 시스템을 개발했습니다.
테스트 세트:
* 첫 번째 테스트 데이터 세트는 DS_NLST의 전체 사례에서 무작위로 분할된 15%입니다.
* 두 번째 테스트 데이터 세트는 미국 일리노이주 병원 시스템의 데이터 세트인 DS_US에서 CT 사례를 선별하여 5,055명의 환자로부터 1,1792건의 신원 미확인 사례를 분리했습니다.
* 세 번째 데이터 세트 DS_JPN은 일본 센다이 고세이 병원의 데이터로, 2006년부터 2018년 사이에 LDCT 검진을 받은 301명의 환자로 구성되어 있습니다.
AI 시스템이 암을 조기에 발견하는 능력을 향상시키기 위해 이 연구에서는 진단 전 최대 2년 동안 암 양성 사례인 cancer_in_2를 포함했습니다. cancer_in_2 연구에서는 모든 음성 사례를 최소 2년 동안 추적 조사하여 암이 확인되지 않았는지 확인했고, 양성 사례는 모두 2년 이내에 영상 검사를 통해 진단했습니다.
이 연구의 주요 목적은 의사의 암에 대한 의심 수준(LoS) 점수를 통합하여 민감도와 특이도를 계산하고, 가능한 모든 수치적 임계값을 검토하고, LoS에 대한 수신기 작동 특성 곡선을 도출하고, AUC를 계산하는 것이었습니다. 2차 목표는 의사들이 지역적 점수 시스템과 사례 관리 결정 임계값을 사용하는 데 있어 민감도/특이성을 조사하는 것이었는데, 이는 긴급성에 대한 이진 임계값을 기반으로 계산되었습니다.
예를 들어, "6개월 추적 CT"는 "3개월 추적 CT"보다 덜 긴급한 것으로 간주되고, "3개월 추적 CT"는 "악성 종양 의심"보다 덜 긴급합니다. 마찬가지로 이 연구에서는 점수 시스템 반응과 AI 시스템 반응에 대해서도 동일한 분석을 수행했으며 ORH 분석을 사용하여 AUC 차이를 비교했습니다.
결과에서 p 값 < 0.05는 AUC 차이 비교가 통계적으로 유의함을 나타내며, p 값 < 0.0125 또는 < 0.01은 각각 Bonferroni 보정 후 통계적 유의성을 나타냅니다.
연구 결과: AI는 효과적이지만 여전히 병변을 놓칠 수 있습니다.
미국과 일본의 연구에서는AI 지원은 무보조 접근 방식과 비교했을 때 모든 의사의 점수 시스템과 사례 관리 옵션에 대한 민감도를 높였습니다.그 중 미국과 일본의 사례에 대한 연구에서는 LoS와 AUC가 모두 0.023 향상되었으며, 인공지능 지원은 모든 Lung-RADS 점수에서 더 높은 민감도와 특이도를 달성했습니다.

AI 지원을 받은 모든 사례 관리 범주에서 민감도와 특이도 점수가 더 높았습니다.AI 지원 특이도에 따르면 미국과 일본의 사례는 각각 5.5%와 6.7% 증가했습니다.그러나 양성 선별검사에서 생검 권장의 특이성은 1.1%만큼 감소했습니다.
이 연구는 또한 미국 국립 폐암 검진 시험에 참여한 환자 집단 분석에 초점을 맞추었고, 그 결과 특이성은 3.4%에 의해 여전히 향상되는 것으로 나타났습니다. 일본 사례 연구 결과에서도 인공지능의 도움으로평균적으로 각 사례에 대한 스크리닝 시간을 14초까지 줄일 수 있습니다.그리고 이는 의사의 진단에 대한 확신을 크게 높여줍니다.

보조적 위치 지정 측면에서 AI 시스템은 미국과 일본에서 각각 진행된 89% 및 75% 암 사례 연구에서 가장 주의를 기울여야 할 결절을 표시했지만, 다른 사례에서는 AI가 가장 주의를 기울여야 할 일부 결절을 놓칠 수도 있습니다.
예를 들어, 한 사례에서 의사가 해당 사례를 의심스러운 것으로 표시했고 AI 시스템은 이를 음성으로 표시했으며, 추가 비교를 통해 최소 2년 동안 음성 추적 관찰을 통해 암으로 진단되지 않았던 더 작은 아고형 결절을 확인했습니다. 추가 방사선과 의사의 검토 결과, 최소 침습성 선암으로 나타났으며 추가 관찰이 진행 중입니다.
결론적으로,이 시스템은 두 국가, PACS 시스템 및 환자 집단을 대상으로 한 후향적 연구에서 효능이 입증되었습니다.까다로운 폐암 검진 사례에 대한 AI 지원 해석을 통해 불필요한 후속 조치를 줄이고, 후속 영상의 과도한 사용을 줄이고, 잦은 폐 생검을 피하고, 의료 시스템의 부담을 줄일 수 있는 잠재력이 있습니다.
구글의 폐암 연구는 계속된다
사실, 구글은 폐암에 대한 오랜 연구 역사를 가지고 있습니다.
구글은 이미 2019년 5월 7일, 2019년 개발자 컨퍼런스에서 자사의 인공지능 기술이 의사보다 1년 일찍 폐암을 발견할 수 있으며, 환자의 생존 가능성을 40%만큼 높일 수 있다고 발표했습니다. 구글은 또한 이러한 기술을 폐암 환자의 치료와 예후를 개선하는 실용적인 의료 솔루션으로 전환하기 위해 노력할 것입니다.
2019년 개발자 컨퍼런스가 끝난 지 10일 남짓 후, Google AI 연구원인 다니엘 씨는 스탠포드, 뉴욕 대학교 및 기타 기관의 연구자들과 협력하여 Nature Medicine 저널에 최신 딥 러닝 모델을 발표했습니다. 테스트 결과, AI 프로그램은 인간 질병을 판단하는 데 94%의 정확도를 보였으며, 이는 테스트에 참여한 6명의 영상의학과 의사보다 더 나은 수치였습니다. 이 인간 의사들은 약 8년의 임상 경험을 가지고 있었습니다.
그 이후로 구글의 폐암 연구 활동은 중단되지 않았습니다. 위의 머신 러닝 모델을 지속적으로 개발해 온 덕분에 Google은 마침내 여러 국가, 여러 전문가, 여러 환자를 대상으로 모델의 효과를 더욱 검증할 수 있었습니다. 이는 또한 폐암 분야에서 인공지능을 실제로 적용하는 속도가 빨라질 수 있으며, 가까운 미래에 인류에게 실질적인 혜택을 가져다 줄 수 있음을 의미합니다.