7일 전

Transformer 시대의 개선된 생물의학 단어 임베딩

Jiho Noh, Ramakanth Kavuluru
Transformer 시대의 개선된 생물의학 단어 임베딩
초록

생물의학 분야의 단어 임베딩은 일반적으로 국소적 및 전역적 분포적 특성을 포착할 수 있도록 신경망 방법을 활용하여 자유 텍스트 코퍼스에서 사전 학습된다. 이러한 임베딩은 다양한 신경망 아키텍처를 사용하여 하류 작업에 활용되며, 작업에 특화된 목적함수를 최적화하기 위해 추가로 조정될 수 있다. 그러나 2018년 이후, 언어 모델(예: ELMo, BERT와 같은 트랜스포머, ULMFiT)을 기반으로 한 문맥적 임베딩으로의 전환이 두드러지게 나타났다. 이러한 동적 임베딩은 문맥에 따라 동음이의어와 약어를 구분할 수 있다는 추가적인 장점이 있다. 그러나 정적 임베딩은 여전히 자원이 제한된 환경(예: 스마트 기기, IoT 장치)에서나 계산 언어학적 관점에서 어휘 의미를 연구하는 데 있어 중요한 역할을 한다. 본 논문에서는 먼저 스트립그램(Skip-gram) 방법을 사용하여 단어와 개념 임베딩을 동시에 학습한 후, 생물의학 인용문 내에서 공존하는 메디컬 서브젝트 헤딩(MeSH) 개념 간의 상관관계 정보를 활용하여 이를 세밀하게 조정한다. 이 조정 과정은 두 문장 입력 방식을 채택한 BERT 트랜스포머 아키텍처를 사용하며, MeSH 쌍의 공존을 포착하는 분류 목적함수를 설정하여 수행된다. 본 연구의 핵심은 일반적으로 동적 임베딩 생성에 사용되는 트랜스포머 아키텍처를 재사용하여 개념 간 상관관계를 활용해 정적 임베딩을 개선하는 것이다. 기존 연구에서 수행했던 개념 및 용어의 선택적 제거 없이, 이전 연구들이 개발한 여러 단어 관련성 데이터셋을 활용하여 조정된 정적 임베딩의 성능을 평가하였다. 본 연구는 정적 임베딩에 대한 가장 포괄적인 평가를 제공하며, 전반적인 성능 향상이 명확하게 나타났다고 주장한다. 본 연구에서 개발한 코드와 임베딩은 하류 응용 및 연구 목적으로 공개한다: https://github.com/bionlproc/BERT-CRel-Embeddings

Transformer 시대의 개선된 생물의학 단어 임베딩 | 최신 연구 논문 | HyperAI초신경