11일 전
RadQA: 영상의학 보고서 이해를 향상시키기 위한 질문 응답 데이터셋
{Kirk Roberts, Atieh Pajouhi, Meghana Gudala, Sarvesh Soni}

초록
우리는 방사선 검사 보고서를 기반으로 한 3,074개의 질문을 포함하고 있으며, 의사들이 각 질문에 대해 해당 답변 구간을 주석 처리한 데이터셋인 RadQA를 제안한다. 이로 인해 총 6,148개의 질문-답변 증거 쌍이 생성되었다. 질문들은 보고서의 임상적 의뢰 항목을 활용해 수동으로 생성되었으며, 주문하는 의료진의 실제 정보 필요성을 반영하면서 답변 맥락을 미리 보는 편향을 제거하였고, 자연스럽게 답변이 불가능한 질문도 생성되었다. 답변 구간은 보고서의 '발견사항'(Findings) 및 '판단'(Impressions) 섹션 내에 명시적으로 표시된다. 본 데이터셋은 복잡한 임상적 요구사항을 충족시키기 위해, 단순한 엔티티를 넘어서 여러 줄에 걸쳐 이어질 수 있는 완전하면서도 간결한 답변 표현을 포함하고 있다. 우리는 제안된 데이터셋에 대해 철저한 분석을 수행하였으며, 주석 불일치의 광범위한 유형을 조사함으로써 인간이 저지르는 오류에 대한 통찰을 제공하고, 질문에 답하기 위한 추론 요구사항을 분석하여 질문에 대한 답변이 의학 지식에 매우 강하게 의존함을 밝혀냈다. 고급 트랜스포머 기반 언어 모델은 테스트 세트에서 최고 F1 스코어 63.55를 기록하였지만, 최고 수준의 인간 성능은 90.31(평균 84.52)에 달한다. 이는 RadQA가 여전히 매우 도전적인 과제이며, 향후 연구를 위한 충분한 발전 여지가 있음을 시사한다.