CollaboNet: 깊은 신경망의 협업을 통한 의생명 정보학적 명명된 개체 인식

배경:생물의학적 명명된 실체를 찾는 것은 생물의학 텍스트 마이닝에서 가장 중요한 작업 중 하나입니다. 최근에는 딥러닝 기반 접근법이 생물의학적 명명된 실체 인식(BioNER)에 적용되어 유망한 결과를 보여주었습니다. 그러나 딥러닝 접근법은 많은 양의 학습 데이터가 필요하기 때문에, 데이터 부족은 성능을 저해할 수 있습니다. BioNER 데이터셋은 희소 자원이며 각 데이터셋은 단지 소수의 실체 유형만을 다룹니다. 또한 많은 생물학적 실체들이 다의어(다중 의미를 가진 단어)로, 이는 명명된 실체 인식에서 주요 장애물 중 하나입니다.결과:데이터 부족과 실체 유형 오분류 문제를 해결하기 위해, 우리는 여러 NER 모델의 조합을 활용하는 CollaboNet을 제안합니다. CollaboNet에서는 서로 다른 데이터셋으로 훈련된 모델들이 서로 연결되어 있어, 대상 모델이 다른 협력 모델들로부터 정보를 얻어 거짓 양성을 줄일 수 있습니다. 모든 모델은 자신의 대상 실체 유형에 대한 전문가이며, 훈련 시기 동안 대상 모델과 협력 모델 역할을 번갈아가며 수행합니다. 실험 결과 CollaboNet은 거짓 양성과 다의어 포함하여 오분류된 실체들의 수를 크게 줄일 수 있음을 보여주었습니다. CollaboNet은 정밀도, 재현율 및 F1 점수 측면에서 최신 성능을 달성했습니다.결론:우리는 여러 모델을 결합하여 BioNER에 미치는 이점을 입증했습니다. 우리의 모델은 다양한 실체 유형으로 주석된 여러 데이터셋을 활용하여 오분류된 실체들의 수를 성공적으로 줄이고 성능을 개선했습니다. 우리 모델의 최신 성능을 고려할 때, CollaboNet이 바이오 엔티티 관계 추출 등의 후속 생물의학 텍스트 마이닝 응용 프로그램의 정확도를 개선할 수 있다고 믿습니다.