17일 전
MATE: 테이블 트랜스포머 효율성을 위한 다중 시점 어텐션
Julian Martin Eisenschlos, Maharshi Gor, Thomas Müller, William W. Cohen

초록
이 연구는 대규모 표를 포함한 문서를 모델링하기 위해 희소 주의(sparse attention) Transformer 아키텍처를 제안한다. 웹 상에서 표는 흔하게 존재하며, 풍부한 정보를 담고 있다. 그러나 웹 상의 관계형 표 중 20% 이상이 20개 이상의 행을 가지고 있으며(Chafarella 등, 2008), 이러한 대규모 표는 일반적으로 512 토큰까지 제한되는 현재의 Transformer 모델에 도전 과제를 제기한다. 본 연구에서는 웹 표의 구조를 효과적으로 모델링할 수 있도록 설계된 새로운 Transformer 아키텍처인 MATE를 제안한다. MATE는 주의 메커니즘을 희소하게 적용함으로써, 각 주의 헤드가 표의 행 또는 열 중 하나에 효율적으로 주의를 기울일 수 있도록 한다. 이 아키텍처는 속도와 메모리 사용량 측면에서 선형적으로 확장 가능하며, 현재의 가속기로도 8,000 토큰 이상을 포함하는 문서를 처리할 수 있다. 또한 MATE는 표 데이터에 더 적합한 유도적 편향(inductive bias)을 지니고 있으며, 세 가지 표 추론 데이터셋에서 새로운 최고 성능을 달성했다. 특히, 표를 포함한 대규모 문서를 다루는 HybridQA(Chen 등, 2020b) 데이터셋에서 기존 최고 성능보다 19점 향상시켰다.