구글, 의료 AI 도구의 공정성 평가 위한 4단계 'HEAL' 프레임워크 공개

건강한 상태를 유지하는 것을 하나의 경주로 생각해 보면, 모든 사람이 같은 출발선에서 출발할 수는 없습니다. 어떤 사람들은 끝까지 순조롭게 달릴 수 있고, 어떤 사람들은 넘어져도 바로 도움을 받을 수 있습니다. 그러나 일부 사람들은 경제적 상황, 거주지, 교육 수준, 인종 또는 기타 요인으로 인해 더 많은 어려움에 직면할 수 있습니다.
"건강의 형평성"이란 모든 사람이 건강 관리 자원에 동등하게 접근할 수 있어야 하며, 이를 통해 더욱 차분하게 경주를 완주하고 최적의 건강을 달성할 수 있다는 것을 의미합니다.질병 예방, 진단 및 치료에서 일부 집단(소수 인종, 사회경제적 지위가 낮은 사람, 의료 서비스 접근성이 제한된 개인 등)에 대한 불공정한 대우는 그들의 삶의 질과 생존 가능성에 큰 영향을 미칠 수 있습니다. 불평등의 근본 원인을 더욱 해결하기 위해서는 '건강의 형평성'에 대한 관심을 높이는 것이 전 세계적인 합의가 되어야 한다는 점에는 의심의 여지가 없습니다.
오늘날 머신러닝, 딥러닝 등은 의료 분야에서 '어느 정도 성과를 냈다'고 하지만, 이미 연구실을 벗어나 임상 최전선으로 진출한 상태입니다. AI의 강력한 능력에 감탄할 때, 사람들은 이런 새로운 기술의 실제적 적용이 건강 자원의 불평등을 심화시킬지 여부에 대해 더 주의를 기울여야 하지 않을까요?

*밝은 파란색 막대는 기존 건강 결과를 나타냅니다.
* 진한 파란색 막대는 기존 건강 결과에 대한 개입의 영향을 보여줍니다.
이를 위해 구글 팀은 머신러닝 기반 의료 솔루션이 '공정한지' 정량적으로 평가할 수 있는 HEAL(The health equity framework) 프레임워크를 개발했습니다.연구팀은 이러한 접근 방식을 통해 새로운 건강 기술이 건강 불평등을 의도치 않게 악화시키는 것이 아니라, 오히려 건강 불평등을 효과적으로 줄이는지 확인하고자 합니다.
HEAL 프레임워크: 피부과에서 AI 도구의 공정성을 평가하는 4단계
HEAL 프레임워크는 4단계로 구성됩니다.
- 건강 불평등과 관련된 요소를 식별하고 AI 도구 성능 지표를 정의합니다.
- 기존 건강 격차를 식별하고 정량화합니다.
- AI 도구 성능 테스트
- AI 도구의 잠재력을 측정하여 건강 형평성 격차를 우선시합니다.

1단계: 피부과에서의 건강 불평등과 관련된 요소를 파악하고 AI 도구의 성능을 평가하기 위한 지표를 파악합니다.
연구자들은 문헌을 검토하고 데이터 가용성을 고려하여 나이, 성별, 인종/민족, 피츠패트릭 피부 유형(FST) 등의 요소를 선택했습니다.
FST는 자외선(UV) 복사, 특히 햇볕에 타는 것과 태닝에 대한 반응을 기준으로 인간 피부를 분류하는 시스템입니다. FST I에서 FST VI까지, 각 유형은 피부, 눈, 머리카락에서 생성되는 멜라닌의 수준과 자외선에 대한 민감도를 나타냅니다.
또한 연구진은 AI 도구의 성능을 평가하는 지표로 상위 3개 일치도를 선택했는데, 이는 AI가 제안한 상위 3개 조건 중 하나 이상이 피부과 전문가 패널의 기준 진단과 일치하는 사례의 비율로 정의됩니다.
2단계: 피부과에서 존재하는 "건강 격차"를 파악합니다.
건강 격차 지표는 서로 다른 집단 간의 건강 상태 불평등을 정량화하고 설명하는 데 사용되는 구체적인 측정 지표입니다. 이러한 집단은 인종, 경제적 지위, 지리적 위치, 성별, 나이, 장애 상태 또는 기타 사회적 결정 요인에 따라 구분됩니다.
일반적인 건강 격차 지표는 다음과 같습니다.
장애 조정 생명 연수(DALY): 질병, 장애 또는 조기 사망으로 인해 손실된 건강한 수명의 연수를 나타냅니다. DALY는 잠재적 수명 손실 연수(YLL)와 장애를 안고 살아온 연수(YLD)의 합계인 복합 지표입니다.
수명이 손실된 해(YLL): 조기 사망으로 인해 손실되는 건강한 연수의 예상 수.
연구진은 또한 고위험 조건에서 AI 도구의 성능이 어떻게 달라지는지 이해하기 위해 피부암에 대한 하위 분석을 수행했습니다. 우리는 모든 암에 대한 건강 결과를 추정하기 위해 "비흑색종 피부암"과 "악성 피부 흑색종"의 세계 질병 부담(GBD) 범주를 사용했고, 모든 비암 상태에 대한 "피부 및 피하 질환" 범주를 사용했습니다.
3단계: AI 도구의 성능 측정
상위 3개 일치도는 AI가 예측한 순위가 매겨진 병리를 평가 데이터 세트(연령, 성별, 인종/민족 및 eFST로 계층화된 하위 집단)의 참조 진단과 비교하여 측정했습니다.
4단계: 건강 격차를 고려한 AI 도구의 성능 테스트
피부질환 AI 도구의 HEAL 지표를 정량화하기 위한 구체적인 방법은 다음과 같습니다.
각 하위 집단에 대해 두 가지 입력이 필요합니다.기존의 건강 격차와 AI 도구 성능에 대한 정량적 측정.
주어진 불평등 요인(예: 인종/민족)에 대해 모든 하위 그룹의 건강 결과와 AI 성과 간의 역상관관계 R을 계산합니다. R의 양의 값이 클수록 건강 형평성에 대한 고려가 더욱 포괄적이다.
AI 도구의 HEAL 지표는 p(R > 0)으로 정의되며, 이는 9,999개 샘플의 R 분포를 통해 AI가 기존의 건강 격차를 우선시할 확률을 추정합니다. 50%보다 높은 HEAL 지수는 건강 형평성을 달성할 확률이 더 높음을 의미하고, 50%보다 낮은 HEAL 지수는 형평한 성과를 달성할 확률이 더 낮음을 의미합니다.
피부과 AI 도구 리뷰: 일부 하위 그룹은 여전히 개선이 필요합니다.
인종/민족: HEAL 지표는 80.5%로, 이들 하위 집단 간에 존재하는 건강 격차를 해소하는 데 높은 우선순위가 있음을 나타냅니다.
성별: HEAL 지표는 92.1%로, 이는 AI 도구 성능에서 건강 차이를 고려할 때 성별이 높은 우선순위를 가지고 있음을 나타냅니다.
연령: HEAL 지표는 0.0%로, 연령대 간 건강 차이를 우선시할 확률이 낮음을 나타냅니다. 암 상태에 대한 HEAL 지수는 73.8%인 반면, 암이 아닌 상태에 대한 HEAL 지수는 0.0%입니다.

연구진은 로지스틱 회귀 분석을 수행하여 나이와 특정 피부과적 상태(기저세포암, 편평세포암 등)가 AI 성능에 상당한 영향을 미치는 반면, 다른 상태(낭종 등)는 정확도가 떨어지는 것으로 나타났습니다.
또한 연구진은 세분화된 GBD 건강 결과 측정 도구를 사용하여 연령, 성별, 인종/민족에 걸쳐 HEAL 분석을 확장하여 교차 분석을 수행했으며, 그 결과 전체 HEAL 지수는 17.0%가 되었습니다.건강 결과와 AI 성과에서 낮은 순위가 교차하는 부분에 특히 초점을 맞춰, 우리는 50세 이상의 히스패닉 여성, 50세 이상의 흑인 여성, 50세 이상의 백인 여성, 20~49세의 백인 남성, 50세 이상의 아시아 태평양계 미국인 남성을 포함하여 AI 도구 성과 개선이 필요한 하위 그룹을 파악했습니다.
즉, 이러한 그룹을 대상으로 AI 도구의 성능을 개선하는 것은 건강 형평성을 달성하는 데 중요합니다.
단순한 건강 형평성 그 이상: AI의 공정성에 대한 더 광범위한 그림
인종/민족, 성별, 연령대별로 건강 불평등이 상당히 존재한다는 것은 자명한 사실입니다. 특히 첨단 의료기술의 급속한 발전으로 인해 건강자원의 불균형은 더욱 심화되고 있습니다. AI는 관련 문제를 해결하는 데 아직 갈 길이 멉니다. 하지만 기술의 진보로 인해 발생하는 불공정함은 실제로 사람들의 삶의 모든 측면에 널리 퍼져 있다는 점을 주목할 필요가 있습니다. 예를 들어 디지털 격차로 인해 정보, 온라인 교육, 디지털 서비스에 대한 접근성의 불평등이 있습니다.
Google AI 책임자이자 "프로그래머의 신"인 제프 딘은 Google이 AI의 공정성을 매우 중요하게 여기고 있으며 데이터, 알고리즘, 커뮤니케이션 분석, 모델 해석 가능성, 문화적 차이 연구, 대규모 모델 개인정보 보호 분야에서 많은 연구를 수행했다고 말한 적이 있습니다. 예를 들어: * 2019년, Google Cloud의 책임 있는 AI 제품 검토 위원회와 Google Cloud의 책임 있는 AI 거래 검토 위원회는 알고리즘의 불공정성이나 편향을 심화시키는 것을 피하기 위해 신용 관련 AI 제품의 개발을 중단했습니다. * 2021년에 첨단기술심의위원회는 대규모 언어 모델과 관련된 연구를 검토한 후, 신중하게 연구를 계속할 수는 있지만 포괄적인 AI 원칙 검토가 수행될 때까지는 모델을 공식적으로 출시할 수 없다는 결론을 내렸습니다. * 구글 딥마인드 팀은 "인간의 가치를 AI 시스템에 통합하는 방법"을 탐구하고 AI에 철학적 아이디어를 통합하여 사회적 공정성을 확립하는 데 도움이 되는 논문을 발표한 적이 있습니다.
앞으로 AI 기술의 공정성을 확보하기 위해서는 다음과 같은 다각적인 개입과 거버넌스가 필요할 것입니다.
* 공정한 데이터 수집 및 처리:다양한 성별, 연령, 인종, 문화, 사회경제적 배경을 가진 사람들을 포함하여 교육 데이터에 다양성이 포함되어 있는지 확인하세요. 동시에, 데이터 세트의 대표성과 균형을 보장하기 위해 편향으로 인한 데이터 선택은 피해야 합니다.
* 알고리즘 편향 제거:모델 설계 단계에서는 불공정한 결과로 이어질 수 있는 알고리즘 편향을 사전에 파악하고 제거합니다. 여기에는 모델에 대한 입력 기능을 신중하게 선택하거나 편향을 줄이거나 제거하기 위한 특정 기술을 사용하는 것이 포함될 수 있습니다.
* 공정성 평가:공정성 평가는 모델 배포 전과 후에 수행해야 합니다. 여기에는 다양한 공정성 지표를 사용하여 모델이 다양한 그룹에 미치는 영향을 평가하고 평가 결과에 따라 필요한 조정을 하는 것이 포함됩니다.
* 지속적인 모니터링 및 반복적 개선:AI 시스템을 구축한 후에는 실제 환경에서의 성능을 지속적으로 모니터링하여 발생 가능한 불공정 문제를 신속하게 파악하고 해결해야 합니다. 이를 위해서는 환경 변화와 새로운 사회적 규범에 적응하기 위해 모델을 정기적으로 반복해야 할 수도 있습니다.
AI 기술이 발전함에 따라 관련 윤리 기준과 법률, 규정이 더욱 개선되어 AI 기술이 더욱 공정한 틀 속에서 발전할 수 있게 될 것입니다. 동시에 다양성과 포용성에 대한 초점이 더욱 커질 것입니다. 이를 위해서는 데이터 수집, 알고리즘 설계, 제품 개발을 포함한 모든 측면에서 다양한 그룹의 요구 사항과 특성을 고려해야 합니다.
장기적으로 볼 때, AI가 삶을 변화시키는 진정한 의미는 다양한 성별, 연령, 인종, 문화, 사회경제적 배경을 가진 사람들에게 더 나은 서비스를 제공하고, 기술 적용으로 인해 발생하는 불공정을 줄이는 것입니다. 대중의 인식이 지속적으로 향상됨에 따라, AI 개발 계획에 더 많은 사람들을 참여시키고 AI 기술 개발에 대한 제안을 하여 기술 개발이 사회 전체의 이익과 일치하도록 할 수 있을까요?
AI 기술의 공정성을 위한 거대한 청사진은 기술, 사회, 법률 등 다양한 분야의 공동 노력을 필요로 합니다. 우리는 첨단 기술이 "마태 효과"를 유발하지 않도록 해야 합니다.