2달 전

회상, 확장 및 다중 후보 크로스 인코딩: 빠르고 정확한 초미세 실체 유형화

Jiang, Chengyue ; Hui, Wenyang ; Jiang, Yong ; Wang, Xiaobin ; Xie, Pengjun ; Tu, Kewei
회상, 확장 및 다중 후보 크로스 인코딩: 빠르고 정확한 초미세 실체 유형화
초록

초미세 실체 타이핑(Ultra-fine Entity Typing, UFET)은 주어진 실체 언급(예: Joe Biden)의 문맥에서 극히 자유롭게 형성된 타입(예: 대통령, 정치인)을 예측하는 기술입니다. 최신(State-of-the-art, SOTA) 방법들은 크로스 인코더(Cross-Encoder, CE) 기반 구조를 사용합니다. CE는 언급과 그 문맥을 각각의 타입과 연결(concatenate)하여 사전 훈련된 언어 모델(Pretrained Language Model, PLM)에 입력하여 두者的相关性进行评分。这种方法通过加深实体和类型之间的交互来提高性能,但为了推断单个实体的类型,必须对每个类型执行N次(类型集大小)前向传递。因此,当类型集很大时(例如,UFET中的N = 10k),CE在推理过程中非常缓慢。为此,我们提出了一种召回-扩展-过滤(recall-expand-filter)的方法来进行实体类型识别。召回和扩展阶段会修剪大型类型集,并为每个实体生成K个(通常少于256个)最相关的类型候选。在过滤阶段,我们使用一种称为MCCE的新模型同时编码并评分这K个候选,在一次前向传递中获得最终的类型预测。我们研究了MCCE的不同变体,并且广泛的实验表明,在我们的范式下,MCCE在超细粒度实体类型识别方面达到了SOTA性能,并且比克罗斯 인코더(CE) 빠르다. 또한, MCCE가 미세한(130개의 타입) 및 거친(9개의 타입) 실체 타이핑에서도 매우 효과적임을 확인했습니다. 우리의 코드는 \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}에서 이용할 수 있습니다.请注意,我已将中文部分修正为韩文以保持一致性:크로스 인코더(Cross-Encoder, CE)는 언급과 그 문맥을 각각의 타입과 연결(concatenate)하여 사전 훈련된 언어 모델(Pretrained Language Model, PLM)에 입력하여 두者的相关性进行评分。这种方法通过加深实体和类型之间的交互来提高性能,但为了推断单个实体的类型,必须对每个类型执行N次(类型集大小)前向传递。修正后的韩文如下:크로스 인코더(Cross-Encoder, CE)는 언급과 그 문맥을 각각의 타입과 결합(concatenate)하여 사전 훈련된 언어 모델(Pretrained Language Model, PLM)에 입력하여 두 개의 관련성을 평가합니다. 이 방법은 실체와 타입 간의 더 깊은 상호 작용을 통해 성능을 향상시키지만, 단일 언급의 타입을 추론하기 위해서는 N번(타입 집합 크기만큼) 전방 패스(forward pass)를 수행해야 합니다. 따라서 타입 집합이 큰 경우(예: UFET에서 N = 10k), CE는 추론 과정에서 매우 느립니다. 이를 해결하기 위해 우리는 리콜-확장-필터(recall-expand-filter) 방식으로 실체 타이핑을 수행하는 방법을 제안합니다. 리콜 및 확장 단계에서는 대형 타입 집합을 줄이고 각 언급에 대해 K개(K는 일반적으로 256개 미만임) 가장 관련성이 높은 타입 후보를 생성합니다. 필터링 단계에서는 MCCE라는 새로운 모델을 사용하여 이러한 K개 후보를 동시에 인코딩하고 평가하여 한 번의 전방 패스로 최종 타입 예측을 얻습니다. 우리는 MCCE의 다양한 변형을 조사하였으며, 광범위한 실험 결과가 보여주듯이 우리 패러다임 하에서 MCCE는 초미세 실체 타이핑에서 SOTA 성능을 달성하며 크로스 인코더보다 수천 배 빠릅니다. 또한 우리는 MCCE가 미세한(130개의 타입), 거친(9개의 타입) 실체 타이핑에서도 매우 효과적임을 발견하였습니다. 우리의 코드는 \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}에서 제공됩니다.

회상, 확장 및 다중 후보 크로스 인코딩: 빠르고 정확한 초미세 실체 유형화 | 최신 연구 논문 | HyperAI초신경