11일 전

HTLM: 언어 모델의 하이퍼텍스트 사전 학습 및 프롬프트 설정

Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer
HTLM: 언어 모델의 하이퍼텍스트 사전 학습 및 프롬프트 설정
초록

우리는 대규모 웹 크롤링 데이터를 기반으로 훈련된 하이퍼텍스트 언어 모델인 HTLM을 소개한다. 하이퍼텍스트를 모델링하는 데에는 다음과 같은 여러 장점이 있다. (1) 대규모로 쉽게 수집 가능하며, (2) 문서 수준 및 최종 작업과 밀접한 supervision을 제공한다(예: 클래스(class) 및 ID(id) 속성은 종종 문서의 카테고리 정보를 인코딩하고 있다). 또한 (3) HTML의 기존 의미 구조를 따르는 새로운 구조화된 프롬프팅이 가능하다(예: 입력 텍스트를 포함한 웹페이지의 title 태그를 채워 넣음으로써 제로샷 요약을 수행하는 방식). 본 연구에서는 단순화된 HTML 위에서 BART 스타일의 노이즈 제거 손실(denoising loss)을 직접적으로 사전 훈련함으로써 다양한 최종 작업 및 supervision 수준에서 매우 효과적인 전이 성능을 달성함을 보여준다. HTLM은 분류 벤치마크에서 제로샷 프롬프팅 및 파인튜닝에 대해 텍스트 중심의 동등 크기 모델과 비교해 성능이 동등하거나 이를 초과하며, 제로샷 요약 작업에서는 새로운 최고 성능 기록을 세웠다. 또한 하이퍼텍스트 프롬프팅은 기존 언어 모델이 사용하는 순수 텍스트 프롬프팅보다 HTLM에 더 높은 데이터 효율성을 제공함을 확인하였으며, HTLM은 가용한 훈련 데이터에 대해 가장 가능성이 높은 하이퍼텍스트 형식을 단순히 생성함으로써 스스로 자동 프롬프팅하는 데 매우 효과적임을 발견했다. 앞으로의 HTLM 연구를 지원하기 위해 모든 코드와 모델을 공개할 예정이다.

HTLM: 언어 모델의 하이퍼텍스트 사전 학습 및 프롬프트 설정 | 최신 연구 논문 | HyperAI초신경