4달 전

임상 시험 결과의 의미적 유사성 측정을 위한 딥 사전 훈련된 언어 표현 사용

{Anna Korolevaa Patrick Paroubeka Sanjay Kamatha}

초록

배경: 임상 시험에서 결과(Outcome)는 개입이 인간의 건강에 미치는 영향을 평가하기 위해 모니터링되는 변수이다. 이러한 결과 간의 의미적 유사성 자동 평가는 결과 전환(임상 시험의 사전 정의된 결과를 정당성 없이 변경하는 행위) 탐지 및 핵심 결과 집합(Core Outcome Sets, COS) 구현(특정 의학 분야에서 반드시 보고되어야 하는 최소한의 결과 목록) 등의 여러 작업에 필수적이다.목적: 본 연구에서는 주요 결과(primary outcomes)와 보고된 결과(reported outcomes) 쌍 간의 의미적 유사성을 평가하는 알고리즘을 개발하는 것을 목표로 하였다. 특히, 온톨로지나 사전 등 수동으로 구축된 분야 특화 자원을 필요로 하지 않는 접근 방식에 초점을 맞추었다.방법: 문자열, 어근 및 어형, 온톨로지 내 경로 및 거리, 어절의 벡터 표현 등 단일 유사성 측정 방식, 단일 측정 방식을 특징으로 하는 분류기, 그리고 사전에 학습된 깊은 언어 표현을 미세 조정(fine-tuning)하는 딥러닝 방식을 평가하였다. BERT(일반 도메인 텍스트로 학습), BioBERT(생명의학 텍스트로 학습), SciBERT(과학 텍스트로 학습) 모델을 활용하여 언어 모델의 성능을 비교하였다. 또한 결과를 표현하는 다양한 형태(예: 측정 도구명을 결과명 대신 사용하거나 약어를 사용하는 경우 등)를 고려함으로써 성능 향상 여부를 탐색하였다. 본 연구에서는 결과 쌍 간 유사성에 대한 주석이 포함된 오픈 코퍼스를 공개하였다.결과: 단일 측정 방식보다 단일 측정 방식을 조합한 특징을 사용하는 분류기가 더 높은 성능을 보였다. 그러나 BioBERT 및 SciBERT 기반의 딥러닝 모델은 분류기보다 우수한 성능을 나타냈다. 특히 BioBERT는 최고의 F-측정치(F-measure) 89.75%를 기록하였다. 결과 표현의 다양한 변형(변형형)을 추가한 결과, 단일 측정 방식 및 분류기의 성능에는 개선이 없었으나, 딥러닝 알고리즘의 성능은 향상되었으며, BioBERT는 F-측정치 93.38%를 달성하였다.결론: 사전에 수동으로 구축된 분야 특화 자원(온톨로지 및 기타 어휘 자원)에 의존하지 않고도, 사전에 학습된 언어 표현을 활용한 딥러닝 접근 방식이 임상 시험 결과 간 의미적 유사성 평가에서 다른 접근 방식보다 뛰어난 성능을 보였다. 또한 결과 표현의 다양한 변형을 고려함으로써 딥러닝 알고리즘의 성능이 추가적으로 향상됨을 확인하였다.

벤치마크

벤치마크	방법론	지표
sentence-embeddings-for-biomedical-texts-on-3	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1: 86.8 Precision: 85.76 Recall: 88.15
sentence-embeddings-for-biomedical-texts-on-3	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1: 89.75 Precision: 88.93 Recall: 90.76
sentence-embeddings-for-biomedical-texts-on-3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1: 89.3 Precision: 87.31 Recall: 91.53
sentence-embeddings-for-biomedical-texts-on-3	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1: 84.21 Precision: 83.36 Recall: 85.2
sentence-embeddings-for-biomedical-texts-on-3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1: 89.3 Precision: 87.99 Recall: 90.78
sentence-embeddings-for-biomedical-texts-on-4	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1: 91.51 Precision: 91.3 Recall: 91.79
sentence-embeddings-for-biomedical-texts-on-4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1: 89.16 Precision: 89.31 Recall: 89.12
sentence-embeddings-for-biomedical-texts-on-4	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1: 93.38 Precision: 92.98 Recall: 93.85
sentence-embeddings-for-biomedical-texts-on-4	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1: 89.12 Precision: 88.25 Recall: 90.1
sentence-embeddings-for-biomedical-texts-on-4	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1: 90.69 Precision: 89 Recall: 92.54

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

임상 시험 결과의 의미적 유사성 측정을 위한 딥 사전 훈련된 언어 표현 사용

{Anna Korolevaa Patrick Paroubeka Sanjay Kamatha}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters