
초록
원격 감독 관계 추출(RE)은 대규모 문헌에 대한 RE를 확장하는 효과적인 방법이지만 노이즈 라벨 문제에 시달립니다. 기존 접근 방식들은 다중 인스턴스 학습과 추가 정보 제공을 통해 노이즈를 완화하려고 하지만 주로 상위 빈도 관계만 인식하고, 꼬리 부분의 관계는 무시합니다. 우리는 REDSandT (Relation Extraction with Distant Supervision and Transformers, 원격 감독 및 트랜스포머 기반 관계 추출)라는 새로운 원격 감독 트랜스포머 기반 RE 방법을 제안합니다. 이 방법은 BERT의 사전 훈련 모델과 라벨과 실체 간의 관계를 활용하여, 고도로 정보가 풍부한 인스턴스와 라벨 임베딩을 통해 더 넓은 범위의 관계를 포착할 수 있습니다.우리는 구조화된 입력, 즉 실체 쌍을 연결하는 하위 트리와 실체 유형을 포함하여 BERT를 미세 조정(fine-tuning)하여 REDSandT가 관계 토큰에만 집중하도록 안내합니다. 추출된 정보 벡터를 사용하여 라벨 임베딩을 형성하며, 이를 인스턴스 위에서 주의 메커니즘(attention mechanism)으로 사용하여 노이즈를 더욱 줄입니다. 마지막으로, 관계 임베딩과 인스턴스 임베딩을 연결(concatenating)하여 문장을 표현합니다.NYT-10 데이터셋에서 수행된 실험 결과, REDSandT는 더 넓은 범위의 관계를 더 높은 신뢰도로 포착하며, 최신 연구 성과(state-of-the-art AUC 0.424)를 달성하였습니다.