Command Palette

Search for a command to run...

4달 전

복잡한-간단한 텍스트 쌍에 대한 명시적 레이블링으로부터 단순화 방법 학습하기

{Carolina Scarton o Fern Alva-Manchego Lucia Specia Joachim Bingel Gustavo Paetzold}

복잡한-간단한 텍스트 쌍에 대한 명시적 레이블링으로부터 단순화 방법 학습하기

초록

현재 텍스트 단순화에 관한 연구는 두 가지 핵심적인 문제에 의해 제약을 받고 있다. 첫째, 고품질의 평행 단순화 데이터가 극히 부족하다는 점이며, 둘째, 기존 데이터에 단순화 작업(예: 삭제 또는 대체)에 대한 명시적 어노테이션이 부족하다는 점이다. 최근에 소개된 Newsela 코퍼스가 첫 번째 문제를 완화시켰지만, 여전히 단순화 작업은 텍스트 간의 평행 데이터로부터 블랙박스 형태의 엔드투엔드(end-to-end) 접근 방식을 통해 직접 학습해야 한다. 이러한 복잡한 문장과 단순한 문장의 평행 쌍은 서로 매우 큰 차이를 보이기 때문에 일반화가 어려운 경우가 많다. 또한 엔드투엔드 모델은 데이터로부터 실제로 무엇이 학습되었는지 해석하기 어렵게 만든다. 본 연구에서는 텍스트 단순화(TS) 작업을 그 하위 문제들로 분해하는 방법을 제안한다. 우리는 평행 코퍼스 내에서 단순화 작업을 자동으로 식별할 수 있는 방법을 개발하고, 이러한 어노테이션을 기반으로 시퀀스 레이블링 기반의 접근 방식을 제안한다. 마지막으로, 다양한 접근 방식이 어떤 종류의 변환을 모델링할 수 있는지에 대한 통찰을 제공한다.

벤치마크

벤치마크방법론지표
text-simplification-on-newselaSeqLabel
SARI: 29.53*
text-simplification-on-pwkp-wikismallSeqLabel
SARI: 30.50*
text-simplification-on-turkcorpusSeqLabel
SARI (EASSEu003e=0.2.1): 37.08*

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
복잡한-간단한 텍스트 쌍에 대한 명시적 레이블링으로부터 단순화 방법 학습하기 | 연구 논문 | HyperAI초신경