HyperAI초신경

시계열 예측의 "블랙박스" 문제를 해결하세요! 화중과학기술대학, 환자 생존율 핵심 지표 밝히기 위해 CGS-Mask 제안

特色图像

AI 기술이 우리 일상생활에 널리 적용되면서,모델의 "해석 가능성"은 점차 해결해야 할 문제가 되었습니다.특히 인간의 생명과 재산의 안전과 관련된 업무의 경우, 이러한 "블랙박스" 알고리즘은 AI 시스템에 대한 사용자의 신뢰를 떨어뜨릴 뿐만 아니라 안전과 차별 등 일련의 문제를 야기합니다.

이 문제는 시계열 예측 작업에서 특히 두드러집니다.시계열 예측에는 주식 시장 예측, 질병 예측, 에너지 예측, 날씨 예측 등을 포함하되 이에 국한되지 않는 여러 핵심 산업이 관련됩니다. 이러한 분야의 작업에서는 AI 결정의 이유를 이해하는 것이 중요합니다.질병 예측을 예로 들면, 의사와 환자는 AI의 예측 결과를 알아야 할 뿐만 아니라, 이러한 결과가 어떻게 얻어지는지도 이해해야 합니다. 어떤 증상이 진단에 중요한 역할을 하는지 명확하게 지적할 수 있다면, AI 지원 의료 진단에 대한 의사와 환자의 신뢰도가 높아질 것입니다.

시계열 예측을 단순히 정확한 숫자가 아닌 '눈에 보이는' 과정으로 만들기 위해서는화중과학기술대학의 루펑(Lu Feng) 팀은 시드니대학과 통지병원의 조마야(Zomaya) 팀과 함께 CGS-마스크라는 새로운 방법을 제안했습니다.시계열 예측과 해석 가능성을 결합함으로써 이 방법은 모델 예측 정확도를 향상시킬 수 있을 뿐만 아니라 예측 결과를 보다 직관적이고 해석 가능하게 만들 수 있습니다.

구체적으로, 마스킹 메커니즘을 도입함으로써 이 모델은 어떤 순간과 어떤 데이터가 최종 결과에 가장 큰 영향을 미치는지 강조할 수 있습니다. 마치 운전할 때 도로에 있는 중요한 표지판을 명확하게 표시하여 방향을 바꾸거나 속도를 줄이기로 결정한 이유를 이해하도록 돕는 것과 같습니다.이러한 접근 방식은 의료, 천문학, 센서, 에너지와 같은 분야에서 폭넓은 잠재적 적용 가능성을 가지고 있으며, 특히 사용자와의 상호 작용이 필요한 시계열 예측 작업에 적합합니다.

"CGS-마스크: 모든 사람을 위한 직관적인 시계열 예측"이라는 제목의 이 업적은 세계 최고의 인공지능 학회 중 하나인 제38회 AAAI 인공지능 학회 논문집(AAAI'24)에 게재 승인되었습니다.

연구 하이라이트:

* CGS-Mask는 기존 방식과 비교했을 때 예측 결과에 가장 중요한 시간대와 중요하지 않은 요소를 더욱 명확하게 보여주어 사용자가 예측 과정을 더 쉽게 이해할 수 있도록 해줍니다.

* CGS-Mask는 다양한 시계열 예측 작업에 적합하며, 특히 주식 시장 예측, 질병 예측, 날씨 예측 등 사용자 상호작용과 결과 설명이 필요한 작업에 적합합니다.

* CGS-Mask는 정확성, 해석 가능성, 직관성 측면에서 다른 방법보다 뛰어납니다. 이는 "블랙박스" 문제를 줄이고 모델의 투명성을 향상시킵니다. 이 방법을 사용하면 비전문가도 모델의 예측 결과를 이해할 수 있어 사용자 친화적이고 모델의 적용성과 신뢰성이 향상됩니다.

* 앞으로 연구자들은 CGS-Mask를 적극적으로 개선하고, 특히 의료 분야에서 CGS-Mask의 시계열 응용 프로그램 적용 가능성을 입증하기 위해 노력할 것입니다. 의료 분야에서는 이 방법을 사용하여 의료 기록에서 중요한 특징을 식별하여 질병의 발병, 발전 및 악화를 밝힐 수 있습니다.

서류 주소:

https://ojs.aaai.org/index.php/AAAI/article/view/29325

공식 계정을 팔로우하고 "시계열 예측"에 답글을 달면 전체 PDF를 받을 수 있습니다.

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 의료, 천문학, 센서, 에너지를 포함하는 합성 데이터 + 실제 데이터

연구자들은 4개의 합성 데이터 세트를 선택했습니다.각각 "희귀한 특징", "희귀한 시간", "혼합", "무작위"입니다.

* 드문 특징 데이터 세트와 드문 시간 데이터 세트에는 각각 소수의 중요한 특징과 소수의 중요한 시간 지점이 포함됩니다. 

* 혼합 데이터 세트는 희귀 특징과 희귀 시간 데이터를 결합하여 생성됩니다.

* 무작위 데이터 세트의 주요 입력 영역은 무작위로 위치합니다.

연구자들이 선택한 실제 데이터 세트는 MIMIC-III 데이터 세트, LSST 데이터 세트, NATOPS 데이터 세트, AE 데이터 세트입니다.이러한 데이터 세트는 의료, 천문학, 센서, 에너지 등의 분야를 포괄하며, 다양한 분야에서 CGS-Mask의 성능을 평가하는 데 사용됩니다.

MIMIC-III 데이터 세트:40,000명의 중환자실(ICU) 환자의 건강 기록이 포함되어 있으며, 각 기록에는 환자의 향후 48시간 내 생존율을 예측하는 데 사용되는 31가지 특징이 있습니다. 이는 환자가 살아남을지 죽을지를 구별하는 것을 목표로 하는 이진 분류 작업입니다.

LSST 데이터 세트:대형 시놉틱 탐사 망원경을 이용한 관측에 앞서 천문학적 시계열 데이터를 시뮬레이션합니다. 예측 모델은 이 데이터를 14가지의 천문학적 범주로 분류해야 합니다.

NATOPS 데이터 세트:제스처 인식 센서에 의해 생성되며 손, 팔꿈치, 손목, 엄지손가락에서 센서 데이터를 기록합니다. 이러한 데이터는 6가지 다른 제스처로 분류되어야 합니다.

AE 데이터 세트:UCI 저장소의 가전제품 에너지 예측 데이터 세트는 주택의 총 에너지 사용량을 예측하는 데 사용됩니다. 이는 회귀 작업이며, 예측 모델의 출력은 총 에너지 사용량을 나타내는 수치 값입니다.

모델 아키텍처: 막대 마스크 최적화, CGS-Mask는 시계열 예측에 대한 명확하고 직관적인 설명을 제공합니다.

CGS-마스크는 세포 유전자 스트립 마스크에 기반한 뛰어난 탐지 방법입니다. 세포 유전 알고리즘을 결합하여 스트립 마스크를 최적화함으로써 시계열 예측 작업에서 "블랙박스" 문제를 해결하고 모델의 해석성을 향상시킬 수 있습니다.

* 막대 마스크는 연속적인 시간 단계를 전체적으로 고려하여 특징의 영향을 평가하므로 시계열 데이터의 시간 종속성을 효과적으로 포착할 수 있습니다. 막대 마스크의 이진 값(0 또는 1)은 결과의 해석성을 높이고 유의성 점수를 더 직관적으로 만들어줍니다.

바 마스크를 최적화하는 구체적인 단계는 다음과 같습니다. 먼저, 바 마스크 세트를 만들고 이를 셀룰러 오토마타에 매핑합니다. 그런 다음 유전적 연산(교차, 돌연변이, 번역 등)을 사용하여 각 마스크를 최적화하고 이를 다음 세대로 진화시킵니다. N라운드의 세대가 지나면 적합도 값이 가장 높은 마스크가 최적의 마스크로 선택됩니다. CGS-Mask의 전반적인 프레임워크는 아래 그림과 같습니다.

CGS-Mask의 전체 프레임워크

인구 초기화:막대형 마스크의 모집단이 무작위로 초기화되고, 이 마스크들이 2차원 셀룰러 오토마타에 매핑됩니다.

체력 평가:각 막대 마스크에 대한 적합도 값이 계산되고 정의된 섭동 오차를 통해 평가됩니다. 섭동 오차는 모델 예측에 대한 마스크의 영향을 측정합니다.

유전 연산자 최적화: 각 마스크는 교차, 돌연변이, 변환과 같은 유전 연산자를 사용하여 최적화됩니다.

* 교차: 알고리즘은 이웃 마스크 사이에서 교차 연산을 수행하여 새로운 마스크를 생성합니다. CGS-Mask에서 줄무늬는 유전 연산의 기본 단위입니다. 새로운 마스크의 줄무늬는 부모 중 누구에게서나 물려받을 수 있습니다.

* 돌연변이: 마스크의 줄무늬를 특정 확률로 대체하여 유전적 다양성을 높이고 알고리즘이 너무 일찍 지역 최적 솔루션으로 수렴하는 것을 방지합니다.

* 번역: 타임라인에서 스트립의 위치 오프셋을 조정하여 스트립 마스크를 최적화합니다. 이를 통해 대역의 위치를 미세 조정하여 입력 데이터의 실제 주요 영역에 더욱 정확하게 맞출 수 있습니다.

반복적 진화:위의 유전 연산자를 반복적으로 적용함으로써, 집단 내의 마스크는 더 높은 적합도 값을 갖는 마스크를 찾기 위해 지속적으로 진화합니다.

최적의 마스크를 선택하세요:N번의 반복 후, 가장 높은 적합도 값을 갖는 마스크가 최적 마스크(최적 마스크 M*)로 선택됩니다.

CGS-Mask는 셀룰러 오토마타와 유전 알고리즘을 결합하여 막대 마스크를 효과적으로 최적화하여 시계열 예측에 대한 명확하고 직관적인 해석을 제공합니다. 이 방법은 모델의 내부 정보를 필요로 하지 않으므로 다양한 블랙박스 모델에 적용 가능하며, 사용자에게 의미 있는 설명을 빠르게 제공할 수 있습니다.

실험 결론: CGS-Mask는 시간 경과에 따라 변화하는 중요한 특징을 효과적으로 식별하고 질병 발생 및 악화의 핵심 요인을 밝힐 수 있습니다.

CGS-마스크 방법의 성능을 평가하기 위해 연구진은 합성 및 실제 데이터 세트 모두에서 이를 최첨단 8가지 다른 뛰어나성 방법과 비교했습니다. 이러한 방법에는 Dynamask, DeepLIFT, RISE, FIT, Shapley Value Sampling(SVS), Feature Occlusion(FO), Feature Permutation(FP), Integrated Gradient(IG)가 포함됩니다. 아래 그림과 같이,실험 결과에 따르면 CGS-Mask는 중요한 특징을 판별하는 데 더 높은 정확도를 보였으며, 이는 시간이 지남에 따라 변화하는 중요한 특징을 식별하는 데 더 효과적임을 나타냅니다.

실제 데이터 세트에 대한 비교 결과

연구진은 의료 분야의 응용을 예로 들어, MIMIC-III 데이터 세트를 선택하여 환자의 향후 48시간 생존율을 예측했습니다. 다양한 방법을 비교한 내용은 다음 그림과 같습니다. 그림 f는 CGS-Mask 예측 결과이다. 녹색 막대는 환자 결과와 관련된 주요 특징을 나타냅니다.연구에 따르면 혈압 저하, 빈맥, 호흡 곤란은 모두 임박한 사망 위험을 나타내며, 의사는 이러한 특징을 바탕으로 적절한 시기에 개입할 수 있습니다.그러나 다른 비교 방법에서는 그림 (a)-(d)에 표시된 것처럼 이 결과로 이어지는 기간과 특징을 명확하게 식별하지 못합니다.

생성된 마스크의 가독성을 평가하기 위해 연구진은 다양한 연령대(5~83세)와 다양한 수준의 도메인 지식을 가진 254명의 참가자를 대상으로 설문 조사를 실시했습니다. 결과는 다음과 같습니다65% 이상의 사용자가 CGS-Mask를 주요 특징과 시간적 상관관계를 이해하는 데 가장 도움이 되는 방법으로 평가했으며, 85% 이상의 사용자가 이를 상위 3위 안에 들었습니다.

또한 연구진은 3개의 뛰어난 마스크(Q1, Q2, Q3)를 사용하여 10개의 시간 단계 내에 4개의 특징(A, B, C, D)을 결정할 때 특징 중요도 반응 시간과 정확도를 평가하기 위해 시범 사용자 연구를 수행했습니다. 아래 그림에서 보는 바와 같이 CGS-Mask(Q2)를 사용한 사용자의 평균 반응시간은 6.26초이고 정확도는 85.4 %인 반면, 수치형 마스크(Q1, Q3)를 사용한 사용자의 평균 반응시간은 19.22초이고 정확도는 40.6%에 불과합니다.이는 CGS-Mask가 사용자가 기능 중요도를 더 빠르고 정확하게 식별하는 데 도움이 될 수 있음을 나타냅니다.

사용자 응답 시간 및 선택 결과

요약하자면, 모델에 독립적인 탁월성 방법으로서 CGS-Mask는 직관적이고 사용자 친화적일 뿐만 아니라 시계열 예측을 효과적으로 설명할 수 있습니다. 이 솔루션은 합성 데이터와 실제 데이터 모두에서 기존 솔루션보다 우수한 성능을 발휘합니다.특히 의료 분야에서 CGS-Mask는 의료 기록에서 중요한 특징을 식별하는 데 탁월한 능력을 입증했습니다. 이는 질병의 발생, 발전 및 악화를 밝히는 데 매우 중요하며 엄청난 응용 잠재력을 가지고 있습니다.

의료 분야에서의 시계열 예측 모델의 최첨단 응용

시계열 예측은 시간 순서를 따라 데이터를 분석하여 모델을 구축하여 데이터의 추세, 계절성, 순환적 패턴을 파악하는 것을 목표로 합니다. 이러한 모델은 과거 데이터의 변화하는 패턴을 예측할 수 있을 뿐만 아니라, 미래의 개발 추세를 분석할 수도 있습니다. 그 응용 분야는 매우 광범위하여 금융, 기상학, 의료, 운송, 에너지 예측 등 여러 분야를 망라합니다.

의학 분야에서 이 논문의 첫 번째 저자인 화중과학기술대학의 루펑 교수는 시퀀스 예측 모델의 응용에 계속해서 집중하고 있습니다.위 연구 외에도 그녀는 시드니 대학의 한 팀과 협업하여 제37회 AAAI 인공지능 학회(AAAI'23) 논문집에 "수술 중 저혈압 조기 경보를 위한 복합 다중 주의 프레임워크"라는 제목의 논문을 발표했습니다.

원본 논문:
https://ojs.aaai.org/index.php/AAAI/article/view/26681

본 논문에서 연구진은 다중 모달리티와 주의 메커니즘을 기반으로 한 수술 중 저혈압에 대한 후속 경고 프레임워크를 제안했습니다. 두 개의 대규모 실제 데이터 세트에 대한 실험 결과, 이 방법을 사용하면 수술 중 저혈압 사건에 대한 조기 경고에 최대 94.1%의 정확도를 달성하는 동시에 신호 샘플링 속도 요구 사항을 3,000배나 크게 줄일 수 있는 것으로 나타났습니다. 더욱이 가장 어려운 15분 평균 동맥압 예측 과제에서 다중 모드 프레임워크는 4.48mmHg의 평균 절대 오차를 달성했는데, 이는 기존 솔루션과 비교했을 때 오차가 42.91% 감소한 수치입니다.

마찬가지로, 난징 의대의 연구팀은 시계열 모델을 개발했습니다.간염 발생률을 예측하는 데 사용됩니다. 계절적 자기회귀 이동평균 모형과 계절적 지수평활화 모형을 사용하여 그들은 다양한 유형의 간염 사례 수를 분석했습니다.

연구에 따르면 매년 3월은 다양한 유형의 간염이 가장 많이 발생하는 시기입니다. 지난 10년 동안 A형 간염의 발생률은 전반적으로 감소 추세를 보였습니다. B형 간염의 발생률은 변동을 보이며 최근 몇 년 동안 증가했습니다. C형 간염의 발생률은 계속해서 증가하고 있습니다. 그리고 E형 간염의 발생률은 기본적으로 안정적으로 유지되었습니다. 이러한 연구 결과는 더욱 효과적인 간염 예방 및 통제 대책을 개발하는 데 중요한 기초를 제공합니다. "2012년부터 2021년까지 중국의 4가지 간염 전염병 추세에 대한 시계열 분석 및 예측"이라는 제목의 이 연구는 난징 의과대학 학술지(자연과학)에 게재되었습니다.

요약하자면, 의료 분야에서 시계열 예측 기술을 적용하는 것은 큰 잠재력을 보여주었습니다. 과학과 기술이 끊임없이 발전하고 데이터가 풍부해짐에 따라, 앞으로는 더욱 혁신적인 시계열 예측 모델과 방법이 등장하여 인간의 건강과 웰빙에 더욱 크게 기여할 수 있기를 기대합니다.

참고문헌:
https://mp.weixin.qq.com/s/8gYtFqcuctY0BqBYa1e_Hg

마지막으로 학업 활동을 추천해주세요! 자세한 내용은 사진을 클릭하세요↓