4달 전

이탈리아어 추상적 텍스트 요약을 위한 두 개의 새로운 데이터셋

{Edoardo Federici Riccardo La Grassa Ignazio Gallo Nicola Landro}

초록

텍스트 요약은 주어진 텍스트에서 관련된 내용을 포함하는 간단한 요약문을 생성하는 것을 목표로 한다. 이탈리아어와 같은 저자원 언어에 대한 추상적 요약(abstractive summarization)을 위한 데이터 부족 문제를 해결하기 위해, 우리는 두 개의 이탈리아어 뉴스 웹사이트에서 수집한 다문장 요약문과 해당 기사, 그리고 스페인어 요약 데이터셋을 기계 번역을 통해 얻은 데이터셋을 기반으로 새로운 원본 데이터셋 두 개를 제안한다. 이 두 데이터셋은 현재 해당 작업을 위한 이탈리아어로 사용 가능한 유일한 두 개의 데이터셋이다. 이러한 데이터셋의 품질을 평가하기 위해, T5-base 모델과 mBART 모델을 각각 학습시켜 좋은 성능을 확인할 수 있었다. 보다 정밀한 결과 평가를 위해, 자동 번역을 통해 얻은 데이터셋으로 학습된 동일한 모델들과, 동일한 학습 언어에서 생성된 자동 번역 요약문을 비교 분석한 결과, 제안하는 데이터셋을 기반으로 학습된 모델이 우수한 성능을 보였음을 입증하였다.

벤치마크

벤치마크	방법론	지표
abstractive-text-summarization-on-abstractive	IT5	ROUGE-1: 33.83
abstractive-text-summarization-on-abstractive	mBART	ROUGE-1: 36.50
abstractive-text-summarization-on-abstractive-1	mBART	ROUGE-1: 38.91
abstractive-text-summarization-on-abstractive-1	Pegasus-CNN/DM (eng-it translation)	ROUGE-1: 23.96
abstractive-text-summarization-on-abstractive-1	IT5	ROUGE-1: 33.78
abstractive-text-summarization-on-abstractive-1	Pegasus-XSum (eng-it translation)	ROUGE-1: 21.03
abstractive-text-summarization-on-mlsum-it	mBART	rouge1: 19.35
abstractive-text-summarization-on-mlsum-it	Pegasus-XSum (eng-it translation)	rouge1: 15.17
abstractive-text-summarization-on-mlsum-it	IT5	rouge1: 19.29
abstractive-text-summarization-on-mlsum-it	Pegasus-CNN/DM (eng-it translation)	rouge1: 16.97

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

이탈리아어 추상적 텍스트 요약을 위한 두 개의 새로운 데이터셋

{Edoardo Federici Riccardo La Grassa Ignazio Gallo Nicola Landro}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters