자동 요약
자동 요약은 소프트웨어를 사용하여 텍스트 문서를 줄여서 원본 문서의 주요 내용을 담은 요약을 만드는 과정입니다. 현재는 머신 러닝과 데이터 마이닝 분야에 속하며, 관련 "정보"를 담고 있는 데이터 하위 집합을 찾는 것이 목표입니다.
현재 자동 요약에는 추출과 추상화라는 두 가지 방법이 있습니다. 추출은 원본 텍스트의 단어, 구 또는 문장의 하위 집합을 기반으로 요약을 작성하는 것입니다. 추상화란 내부적인 의미 표현을 확립한 다음 자연어 생성 기술을 사용하여 인간의 표현에 가까운 요약을 만드는 것입니다.
추출 요약 작업에는 요약자가 중점을 두는 내용에 따라 크게 두 가지 유형이 있습니다. 첫 번째는 일반 요약으로, 컬렉션이나 기사 요약 등의 일반적인 요약을 얻는 데 중점을 둡니다. 두 번째는 쿼리 종속 요약으로, 쿼리에 특정한 객체를 요약합니다.
자동 요약을 평가하는 일반적인 방법은 인간에 의한 요약과 비교하는 것인데, 인간에 의한 요약은 크게 내부 평가와 외부 평가, 텍스트 간 평가와 텍스트 내 평가로 나눌 수 있습니다.
내부 및 외부 평가
내부 평가는 요약 시스템 자체를 테스트하는 데 사용되며, 주로 요약의 일관성과 정보성을 평가합니다. 외부 평가는 요약이 다른 작업의 완료에 미치는 영향, 즉 관련성 평가, 독해 이해 및 기타 작업에 미치는 영향을 기준으로 합니다.
텍스트 간과 텍스트 내
텍스트 내부 방법은 특정 요약 시스템의 출력을 평가합니다. 텍스트 간 방법은 여러 요약 시스템의 출력을 비교 분석하는 데 중점을 둡니다.