Command Palette
Search for a command to run...
{Anna Korolevaa Patrick Paroubeka Sanjay Kamatha}
초록
배경: 임상 시험에서 결과(Outcome)는 개입이 인간의 건강에 미치는 영향을 평가하기 위해 모니터링되는 변수이다. 이러한 결과 간의 의미적 유사성 자동 평가는 결과 전환(임상 시험의 사전 정의된 결과를 정당성 없이 변경하는 행위) 탐지 및 핵심 결과 집합(Core Outcome Sets, COS) 구현(특정 의학 분야에서 반드시 보고되어야 하는 최소한의 결과 목록) 등의 여러 작업에 필수적이다.목적: 본 연구에서는 주요 결과(primary outcomes)와 보고된 결과(reported outcomes) 쌍 간의 의미적 유사성을 평가하는 알고리즘을 개발하는 것을 목표로 하였다. 특히, 온톨로지나 사전 등 수동으로 구축된 분야 특화 자원을 필요로 하지 않는 접근 방식에 초점을 맞추었다.방법: 문자열, 어근 및 어형, 온톨로지 내 경로 및 거리, 어절의 벡터 표현 등 단일 유사성 측정 방식, 단일 측정 방식을 특징으로 하는 분류기, 그리고 사전에 학습된 깊은 언어 표현을 미세 조정(fine-tuning)하는 딥러닝 방식을 평가하였다. BERT(일반 도메인 텍스트로 학습), BioBERT(생명의학 텍스트로 학습), SciBERT(과학 텍스트로 학습) 모델을 활용하여 언어 모델의 성능을 비교하였다. 또한 결과를 표현하는 다양한 형태(예: 측정 도구명을 결과명 대신 사용하거나 약어를 사용하는 경우 등)를 고려함으로써 성능 향상 여부를 탐색하였다. 본 연구에서는 결과 쌍 간 유사성에 대한 주석이 포함된 오픈 코퍼스를 공개하였다.결과: 단일 측정 방식보다 단일 측정 방식을 조합한 특징을 사용하는 분류기가 더 높은 성능을 보였다. 그러나 BioBERT 및 SciBERT 기반의 딥러닝 모델은 분류기보다 우수한 성능을 나타냈다. 특히 BioBERT는 최고의 F-측정치(F-measure) 89.75%를 기록하였다. 결과 표현의 다양한 변형(변형형)을 추가한 결과, 단일 측정 방식 및 분류기의 성능에는 개선이 없었으나, 딥러닝 알고리즘의 성능은 향상되었으며, BioBERT는 F-측정치 93.38%를 달성하였다.결론: 사전에 수동으로 구축된 분야 특화 자원(온톨로지 및 기타 어휘 자원)에 의존하지 않고도, 사전에 학습된 언어 표현을 활용한 딥러닝 접근 방식이 임상 시험 결과 간 의미적 유사성 평가에서 다른 접근 방식보다 뛰어난 성능을 보였다. 또한 결과 표현의 다양한 변형을 고려함으로써 딥러닝 알고리즘의 성능이 추가적으로 향상됨을 확인하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| sentence-embeddings-for-biomedical-texts-on-3 | BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus") | F1: 86.8 Precision: 85.76 Recall: 88.15 |
| sentence-embeddings-for-biomedical-texts-on-3 | BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus") | F1: 89.75 Precision: 88.93 Recall: 90.76 |
| sentence-embeddings-for-biomedical-texts-on-3 | SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus") | F1: 89.3 Precision: 87.31 Recall: 91.53 |
| sentence-embeddings-for-biomedical-texts-on-3 | BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus") | F1: 84.21 Precision: 83.36 Recall: 85.2 |
| sentence-embeddings-for-biomedical-texts-on-3 | SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus") | F1: 89.3 Precision: 87.99 Recall: 90.78 |
| sentence-embeddings-for-biomedical-texts-on-4 | SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus") | F1: 91.51 Precision: 91.3 Recall: 91.79 |
| sentence-embeddings-for-biomedical-texts-on-4 | BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus") | F1: 89.16 Precision: 89.31 Recall: 89.12 |
| sentence-embeddings-for-biomedical-texts-on-4 | BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus") | F1: 93.38 Precision: 92.98 Recall: 93.85 |
| sentence-embeddings-for-biomedical-texts-on-4 | BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus") | F1: 89.12 Precision: 88.25 Recall: 90.1 |
| sentence-embeddings-for-biomedical-texts-on-4 | SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus") | F1: 90.69 Precision: 89 Recall: 92.54 |