17일 전

과학 출판에 셀렉션을 통합하여 AI 모델 훈련하기

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
과학 출판에 셀렉션을 통합하여 AI 모델 훈련하기
초록

학술 논문에서 데이터를 고속으로 추출하고 구조화된 레이블을 부여하는 것은 후속 기계학습 응용 및 2차 분석을 가능하게 하는 데 핵심적이다. 우리는 다중모달 데이터 정제를 학술 출판 과정에 통합하여 분할된 그림 패널과 그에 해당하는 제목을 주석화하였다. 자연어 처리(NLP) 기술과 원저자들의 인간 중심 피드백을 결합함으로써 주석 정확도를 높였다. 주석에는 소분자, 유전자 산물, 세포 내 구조, 세포주, 세포 유형, 조직, 생물체, 질병 등 8종의 생물의학적 실체(entity) 클래스에 더해, 실험 설계 및 방법론에서 해당 실체가 수행하는 역할을 구분하는 추가 클래스가 포함되었다. 최종적으로 생성된 데이터셋인 SourceData-NLP는 분자 및 세포 생물학 분야의 3,223편의 논문에 포함된 18,689개의 그림에서 추출된 62만 개 이상의 주석화된 생물의학적 실체를 포함하고 있다. 본 연구에서는 명명된 실체 인식(NER), 그림 제목을 구성하는 패널 단위로 분할하는 작업, 그리고 실체가 실험에서 통제된 개입 대상인지 또는 측정 대상인지 판단하는 새로운 맥락 의존적 의미 분석 작업을 통해 이 데이터셋이 AI 모델 학습에 얼마나 유용한지를 평가하였다. 또한, 본 데이터셋을 활용하여 그림을 패널 이미지와 해당 제목으로 다중모달로 분할하는 작업의 적용 가능성을 제시하였다.