2달 전

BERT-GT: BERT와 그래프 변환기를 활용한 문장 간 n-항 관계 추출

Po-Ting Lai; Zhiyong Lu
BERT-GT: BERT와 그래프 변환기를 활용한 문장 간 n-항 관계 추출
초록

생물의학적 관계 문장은 일반적으로 여러 문장으로 표현되며, 유전자, 질병, 화학물질, 변이 등 많은 개념을 포함하고 있습니다. 생물의학 문헌에서 정보를 자동으로 추출하기 위해, 기존의 생물의학 텍스트 마이닝 접근 방식은 주로 다중 문장 간 n-항 관계 추출 작업으로 문제를 정식화하여 여러 문장에 걸쳐 n개의 엔티티 사이의 관계를 감지하며, 그래프 신경망(GNN)과 장단기 기억(LSTM) 또는 어텐션 메커니즘을 사용합니다. 최근에 트랜스포머는 많은 자연어 처리(NLP) 작업에서 LSTM보다 우수한 성능을 보여주었습니다. 본 연구에서는 트랜스포머에서 얻은 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers)과 그래프 트랜스포머(Graph Transformer)를 결합한 새로운 아키텍처인 BERT-GT를 제안합니다. 이 방법에서는 원래 트랜스포머 아키텍처가 전체 문장(들)을 이용해 현재 토큰의 어텐션을 계산하는 것과 달리, 이웃 어텐션 메커니즘이 오직 이웃 토큰만을 이용해 어텐션을 계산합니다. 따라서 각 토큰은 노이즈가 적게 이웃 정보에 집중할 수 있습니다. 우리는 이 점이 매우 긴 텍스트, 예를 들어 다중 문장 또는 초록 수준의 관계 추출 작업에서 중요한 역할을 한다는 것을 보여줍니다. 벤치마킹 결과는 n-항 및 화학-단백질 관계 데이터셋에서 최신 기술 대비 정확도와 F1 측정값이 각각 5.44%와 3.89% 개선되었음을 나타내며, 이는 BERT-GT가 다른 생물의학적 관계 추출 작업이나 데이터셋에도 적용 가능한 강력한 접근 방식임을 시사합니다.

BERT-GT: BERT와 그래프 변환기를 활용한 문장 간 n-항 관계 추출 | 최신 연구 논문 | HyperAI초신경