12일 전

이탈리아어 추상적 텍스트 요약을 위한 두 개의 새로운 데이터셋

{Edoardo Federici, Riccardo La Grassa, Ignazio Gallo, Nicola Landro}
이탈리아어 추상적 텍스트 요약을 위한 두 개의 새로운 데이터셋
초록

텍스트 요약은 주어진 텍스트에서 관련된 내용을 포함하는 간단한 요약문을 생성하는 것을 목표로 한다. 이탈리아어와 같은 저자원 언어에 대한 추상적 요약(abstractive summarization)을 위한 데이터 부족 문제를 해결하기 위해, 우리는 두 개의 이탈리아어 뉴스 웹사이트에서 수집한 다문장 요약문과 해당 기사, 그리고 스페인어 요약 데이터셋을 기계 번역을 통해 얻은 데이터셋을 기반으로 새로운 원본 데이터셋 두 개를 제안한다. 이 두 데이터셋은 현재 해당 작업을 위한 이탈리아어로 사용 가능한 유일한 두 개의 데이터셋이다. 이러한 데이터셋의 품질을 평가하기 위해, T5-base 모델과 mBART 모델을 각각 학습시켜 좋은 성능을 확인할 수 있었다. 보다 정밀한 결과 평가를 위해, 자동 번역을 통해 얻은 데이터셋으로 학습된 동일한 모델들과, 동일한 학습 언어에서 생성된 자동 번역 요약문을 비교 분석한 결과, 제안하는 데이터셋을 기반으로 학습된 모델이 우수한 성능을 보였음을 입증하였다.

이탈리아어 추상적 텍스트 요약을 위한 두 개의 새로운 데이터셋 | 최신 연구 논문 | HyperAI초신경