OBIA: 900명 이상 환자, 193주 이상 이미지, 중국과학원 유전체학연구소가 우리나라 최초의 생물학적 이미지 공유 데이터베이스를 공개

의사를 만나서 엑스레이를 찍는 것은 흔한 일입니다. CT, MRI, X선 및 기타 영상 데이터는 비침습적 방식으로 인체를 통과하여 내부 장기와 조직의 상태를 명확하게 볼 수 있으므로 임상 진단 및 질병 치료를 위한 신뢰할 수 있는 기반을 제공합니다.
의료영상기술의 급속한 발전으로 국내 의료데이터 중 영상데이터가 차지하는 비중은 80%를 넘어섰습니다.방사선과 의사 부족, 모든 단계의 병원 간 진단 결과 차이, 의료 자원의 불평등한 분배와 같은 문제점이 점점 더 두드러지고 있습니다.
AI와 의료 영상을 결합하면 상상의 여지가 매우 많습니다. 감각 인지 기술과 딥 러닝 기술은 의료 영상 진단 결과를 식별하는 데 있어 인간에 비해 비교할 수 없을 만큼 뛰어난 이점을 가지고 있습니다. 그들은 의사의 오진율을 줄이고 업무 효율성을 개선하는 데 도움이 될 수 있습니다.
하지만,고품질 AI 알고리즘에는 충분히 크고 대표적인 이미지 데이터 세트가 필요합니다.이러한 의료 이미지에는 많은 양의 민감한 개인정보가 포함되어 있는 경우가 많습니다. 또한, 모든 단계의 병원 간에 "데이터 섬"이 존재하며, 불완전한 공유 시스템으로 인해 의료 영상 AI에 사용 가능한 리소스가 제한됩니다.
저자 | 탑
편집자 | 산양, 쉐차이
전 세계 많은 국가에서 다양한 의료 영상 데이터 공유 데이터베이스를 구축했습니다. 우리나라는 이 분야에서 아직 국제사회에 뒤처져 있습니다. 고품질의 의료생물학적 영상데이터 공유를 촉진하기 위해,중국과학원 유전체학연구소(중국 국가생물정보센터)는 개방형 생물의학 영상 아카이브(OBIA)를 구축했습니다.
중국 최초의 생물의학 영상 데이터 및 관련 임상 데이터의 개방형 저장소로서,OBIA는 전 세계의 의료 종사자와 학자들에게 무료로 공개됩니다. 관련 결과의 사전 인쇄 버전은 2023년 9월 25일에 "bioRxiv"에 게재되었습니다.

논문 링크:https://www.nature.com/articles/s42256-023-00704-7
"HyperAI Super Neural" 공개 계정을 팔로우하고 "OBIA"라고 답글을 달면 논문 전체 PDF를 받을 수 있습니다.
OBIA 데이터베이스 구축 및 구현 프로세스
OBIA는 중국 국가생물정보센터의 핵심 데이터베이스 리소스로서, 전 세계에서 이미지를 제출받고 모든 공공 데이터에 대한 무료 오픈 액세스를 제공합니다.이미지 데이터의 익명화, 관리 및 품질 관리를 지원합니다.탐색, 검색, 다운로드 등의 데이터 서비스를 제공하면 기존 이미지 데이터와 임상 데이터의 재사용을 촉진할 수 있습니다.
OBIA는 5가지 유형의 데이터 객체(컬렉션, 개별, 연구, 시리즈, 이미지)를 사용하여 데이터를 구성합니다.다중 모달리티, 다중 기관, 다중 질병에 대한 생체 의학 이미지 제출을 허용합니다.
귀하의 개인 정보를 보호하기 위해OBIA는 통합된 개인 정보 보호 및 품질 관리 프로세스를 개발했습니다.또한 데이터 제출, 탐색 및 검색, 이미지 검색을 위한 직관적이고 사용자 친화적인 웹 인터페이스를 제공합니다. 전반적으로 OBIA는 국내 생물의학 영상 데이터 관리를 위한 신뢰할 수 있는 플랫폼을 제공하여 글로벌 생물의학 연구를 지원하는 데 도움이 됩니다.

그림 1: OBIA 액세스 인터페이스
URL 방문:https://ngdc.cncb.ac.cn/obia
구현 세부 사항——이미지 검색
딥 신경망은 유리한 특징을 추출하는 데 효과적입니다.이는 인체의 다양한 기관에 대한 다중 모드 의료 영상을 검색하고 소규모 샘플 사례에서 순위 성능을 개선하는 데 사용될 수 있습니다. SIFT(Scale-Invariant Feature Transform), LBP(Local Binary Patterns), HOG(Histogram of Oriented Gradients)와 같은 딥러닝 기반 방법은 기존 방법에 비해 더 나은 성능을 보일 수 있습니다.
OBIA에서 연구진은 암 영상 데이터베이스 TCIA의 다중 모드 암 데이터를 기반으로 EfficientNet을 특징 추출기로 사용하고, 트리플릿 네트워크와 어텐션 모듈을 사용하여 모델을 훈련시키고, 이미지를 이산 해시 값으로 압축했습니다(그림 2). 이후, 추론 성능을 높이고 추론 지연 시간을 줄이기 위해 학습된 모델을 TensorRT 포맷으로 변환하고 Faiss를 사용하여 해시 코드를 저장합니다.
연구자들은 해밍 거리를 사용하여 이미지 유사도를 계산하고 가장 유사한 이미지를 반환했습니다.연구 결과는 제안된 모델의 평균 정확도(MAP) 값이 TCIA 데이터 세트에 대한 기존 고급 이미지 검색 모델의 성능을 능가한다는 것을 보여줍니다.

그림 2: 어텐션 및 레이어 퓨전 모듈 기반 딥 트리플릿 해싱
이 모델은 EfficientNet-B6를 기본 네트워크로 사용하고 Block5의 CBAM 어텐션 모듈을 사용하여 피처 맵을 얻습니다. 완전히 연결된 계층에서는 초점 손실과 트리플릿 손실을 사용하여 해시 코드와 클래스 임베딩을 생성하기 위해 계층 융합이 채택되었습니다.
메모:
● CBAM: 합성곱 블록 어텐션 모듈
● EfficientNet: 구글이 2019년에 제안한 새로운 유형의 CNN 네트워크로, 매개변수 효율성과 속도가 매우 높아 이미지 분류 분야에서 좋은 성능을 보입니다.
● Faiss: 페이스북 AI 연구팀이 개발한 고성능 유사 검색 라이브러리로, 딥러닝에 널리 활용
데이터베이스 콘텐츠 및 사용 - 데이터 모델
그림 3과 같이,OBIA의 이미징 데이터는 5가지 객체 유형으로 구분됩니다.컬렉션, 개인, 연구, 시리즈, 이미지는 각각 다음을 의미합니다.
• 컬렉션:전체 제출에 대한 전반적인 설명을 제공하기 위해 "OBIA"로 시작합니다.
• 개인:등록 번호는 "I"로 시작하며, 의료 서비스를 받거나 받기 위해 등록된 인간 또는 비인간 유기체의 특성을 정의합니다.
• 공부하다:접근 번호는 "S"로 시작하며 개인의 방사선 검사에 대한 설명 정보를 포함합니다.
• 시리즈:연구는 다양한 논리(신체 부위 또는 방향 등)에 따라 하나 이상의 시리즈로 나눌 수 있습니다.
• 영상:단일 DICOM 파일(의학 분야의 디지털 영상 및 통신)의 픽셀 데이터를 설명합니다. 이미지는 단일 연구의 단일 시리즈와 연결됩니다.
참고: DICOM은 의료 영상 분야에서 널리 사용되는 국제 표준입니다. 이는 의료 영상 데이터를 저장, 전송, 공유 및 인쇄하기 위한 일련의 사양과 프로토콜을 정의하여, 다양한 제조업체에서 생산한 의료 장비와 소프트웨어가 서로 호환되고 통신할 수 있도록 합니다.

그림 3: OBIA 데이터 모델
이러한 표준화된 데이터 객체를 기반으로OBIA는 DICOM 표준에서 정의한 영상 구조를 실제 연구 프로젝트와 연결합니다.데이터 공유 및 교환이 실현됩니다.
또한, OBIA의 각 컬렉션은 BioProject에 연결되어 연구 프로젝트에 대한 설명적 메타데이터를 제공합니다.
가능한 경우, OBIA의 개별 데이터는 개별 접근 번호를 통해 GSA-Human에 연결될 수 있으며, 이를 통해 연구자들은 다중 오믹스 분석을 수행할 수 있도록 영상 데이터와 게놈 데이터를 연결할 수 있습니다.
바이오프로젝트 URL:
https://ngdc.cncb.ac.cn/bioproject/
GSA-Human 링크 주소:
https://ngdc.cncb.ac.cn/gsa-human/
데이터베이스 콘텐츠 및 사용——익명화 및 품질 관리
생물학적 이미지에는 보호된 건강 정보(PHI)가 포함되어 있을 수 있으며, 개인 정보 침해 위험을 최소화하기 위해 적절하게 처리되어야 합니다. PHI를 삭제하는 동안 가능한 한 많은 귀중한 과학 정보를 보존하기 위해OBIA는 DICOM 표준을 준수하는 익명화 및 품질 관리 메커니즘을 제공합니다(그림 4).

그림 4: OBIA 익명화 및 품질 관리 메커니즘
OBIA는 북미 방사선학회(RSNA) MIRC 임상 시험 처리기(CTP)를 사용하여 대부분의 개인 식별 정보 제거 작업을 수행합니다.
• 표준 태그의 경우,연구진은 CTP를 구축하고 PHI를 포함하거나 포함할 수 있는 특정 표준 마커를 제거하거나 익명화하기 위한 범용 기반 익명화 스크립트를 개발했습니다.
• 개인 태그의 경우,PyDicom을 사용하여 처리하면서 순수한 디지털 특성을 유지합니다.
익명화 프로세스가 완료되면 OBIA는 품질 관리 절차를 시작합니다.
• 문제의 이미지:제출자가 관련 정보를 제공하여 이미지를 복구하거나 완전히 삭제할 수 있는 분리된 이미지(이러한 이미지에는 제목이 비어 있거나 환자 ID가 누락된 이미지, 손상된 이미지, 다른 환자 이미지와 섞인 이미지 등이 포함됩니다)
• 중복된 이미지:하나만 남겨두세요.
그런 다음 OBIA는 TagSniffer를 사용하여 모든 이미지에 대한 보고서를 생성합니다. 이 보고서에서는 모든 DICOM 요소를 신중하게 검토하여 PHI가 포함되지 않았는지 확인하고 특정 값(예: 환자 ID, 연구 날짜)이 예상대로 수정되었는지 확인합니다.
또한,OBIA 직원은 이미지 픽셀에 대한 시각적 검사도 수행합니다.픽셀 값에 PHI가 포함되지 않고 이미지가 보이고 손상되지 않았는지 확인합니다.
데이터베이스 콘텐츠 및 사용——통계
2023년 9월 현재, OBIA는 9가지 양식과 30개의 해부학적 부위를 포함하여 937개의 "개인", 4,136개의 "연구", 24,701개의 "시리즈" 및 1,938,309개의 "이미지"를 수집했습니다.
대표적인 영상 촬영 방법으로는 X선 컴퓨터 단층촬영(CT), 자기공명영상(MR), 디지털 방사선촬영(DX) 등이 있으며, 해부학적 부위로는 복부, 흉부, 흉곽, 머리, 간, 골반 등이 있습니다.
OBIA에 제출된 첫 번째 데이터 배치는 301 병원에서 나왔습니다.3가지 주요 부인과 종양(자궁내막암, 난소암, 자궁경부암)에 대한 영상 데이터가 포함되어 있습니다.
표 1에서 볼 수 있듯이, 이러한 데이터는 "개인" 수, "연구" 수, "시리즈" 수, "이미지" 수를 나열한 4개의 "컬렉션"으로 나뉩니다. 또한,OBIA는 관련 임상 메타데이터도 수집합니다.예를 들어 인구 통계학적 데이터, 병력, 가족력, 진단, 병리 유형 및 치료 방법 등입니다.

표 1: OBIA에 제출된 첫 번째 정보 배치
데이터 장벽 허물기,국내외 의료데이터 공유 플랫폼 구축
데이터는 순환될 때에만 가치를 창출합니다. 생물학적 영상 데이터의 공유 수준을 향상시키기 위해,전 세계 많은 국가들이 개방형 의료 데이터베이스 구축에 힘쓰고 있습니다.
• 미국 국립보건원(NIH):COVID-19 관련 의료 영상 및 데이터를 위한 오픈 액세스 플랫폼인 MIDRC, 신경 및 뇌 영상을 수집하는 IDA, NITRC-IR, FITBIR, OpenNeuro 및 NDA, 암 영상 데이터베이스인 TCIA 및 IDC(TCIA는 로컬에서 영상을 제공하고 IDC는 암 연구 데이터 공유 클라우드 환경에서 영상을 제공) 등 여러 지식 기반을 후원했습니다.
• 영국 암 연구:OPTIMAM 유방조영술 이미지 데이터베이스(OMI-DB)를 후원했습니다.
• 포르투갈 포르토 대학교:주석이 달린 유방암 이미지와 임상 세부 정보를 제공하는 유방암 디지털 저장소(BCDR)를 후원했습니다.
위의 저장소에서는 NITRC-IR 및 IDC를 제외하고,대부분의 사람들은 데이터 익명화와 품질 관리를 지지합니다.또한, 일부 대학이나 기관에서는 OASIS, EchoNet-Dynamic, CAMUS 프로젝트 등 오픈 소스 데이터 세트를 제공하기도 합니다.

그림 5: MIDRC 데이터베이스에 있는 79세 환자의 흉부 CT
국내에서,화중과학기술대학은 코로나19의 통합 CT 영상과 CF에 대한 오픈 리소스를 제공합니다.여기에는 폐렴(COVID-19 포함) 환자의 CT 영상과 임상적 특성이 포함되어 있지만, 단일 질병에 국한되어 있으며 사용 가능한 연구 자원이 제한적입니다. 따라서 중국에는 다양한 질병과 모달리티 데이터를 저장하고 수용하는 데 특화된 데이터베이스가 아직 부족합니다.
중국과학원에서 설립한 OBIA는 국내 생물의학 영상 데이터의 공개 공유의 공백을 메운다.이를 통해 다양한 기관의 연구자들이 임상적으로 관련성 있는 영상 데이터를 공유할 수 있으며, 중국의 생물의학 영상 데이터베이스 분야의 격차를 효과적으로 메울 수 있습니다.
연구진은 논문에서 앞으로도 OBIA의 인프라를 계속 업그레이드하고 보안 조치를 강화할 것이라고 밝혔다. 또한, 더 많은 유형의 생물의학 영상 데이터를 수집하고 데이터 소스를 확대할 것입니다.우리는 "최대한 많은 유효한 이미지 메타데이터를 보존하고 과학 연구자들에게 고품질의 이미지 데이터를 제공한다"는 목표를 달성하기 위해 여러 가지 조치를 취하고 있습니다.
-- 위에--