2달 전

Transformer를 재귀적으로 구성된 다중 해상도 표현으로 강화하기

Xiang Hu; Qingyang Zhu; Kewei Tu; Wei Wu
Transformer를 재귀적으로 구성된 다중 해상도 표현으로 강화하기
초록

우리는 ReCAT를 소개합니다. ReCAT는 재귀적 구성이 강화된 Transformer로, 학습과 추론 과정에서 금자탑 트리를 의존하지 않고 원시 텍스트의 계층적 구문 구조를 명시적으로 모델링할 수 있습니다. 이전 연구들은 데이터가 계층적 트리 구조를 따르도록 제한하여, 스패너 간의 상호작용이 부족했습니다. 이러한 문제를 해결하기 위해, 우리는 하향식 및 상향식 패스를 통해 스패너의 문맥화된 표현을 학습하는 새로운 문맥 내외(CIO) 레이어를 제안합니다. 하향식 패스는 저수준 스패너들을 결합하여 고수준 스패너들의 표현을 형성하며, 상향식 패스는 스패너 내부와 외부의 정보를 결합합니다. Transformer의 임베딩 레이어와 어텐션 레이어 사이에 여러 개의 CIO 레이어를 쌓음으로써, ReCAT 모델은 깊은 스패너 내부 상호작용과 깊은 스패너 간 상호작용을 모두 수행할 수 있으며, 이로 인해 다른 스패너들과 완전히 문맥화된 다중 단계 표현을 생성할 수 있습니다. 또한 CIO 레이어는 Transformer와 함께 공동 사전학습될 수 있어, ReCAT는 확장 능력, 강력한 성능, 그리고 해석 가능성까지 동시에 갖추게 됩니다.우리는 다양한 문장 단위 및 스패너 단위 작업에서 실험을 수행했습니다. 평가 결과는 ReCAT가 모든 스패너 단위 작업에서 일반 Transformer 모델보다 유의미하게 우수하며, 자연어 추론 작업에서는 재귀 네트워크와 Transformer를 결합한 기준 모델들보다도 성능이 우수함을 보여줍니다. 더욱 흥미롭게도, ReCAT에 의해 유도된 계층적 구조는 인간이 주석 처리한 구문 트리와 강한 일관성을 보여주며, 이는 CIO 레이어가 제공하는 좋은 해석 가능성을 나타냅니다.

Transformer를 재귀적으로 구성된 다중 해상도 표현으로 강화하기 | 최신 연구 논문 | HyperAI초신경