17일 전

N24뉴스: 다중모달 뉴스 분류를 위한 새로운 데이터셋

Zhen Wang, Xu Shan, Xiangxie Zhang, Jie Yang
N24뉴스: 다중모달 뉴스 분류를 위한 새로운 데이터셋
초록

현재의 뉴스 데이터셋은 뉴스의 텍스트 특성에만 초점을 맞추고 있으며, 이미지의 특성을 거의 활용하지 않아 뉴스 분류에 있어 중요한 정보를 소외시키고 있다. 본 논문에서는 뉴욕타임즈(New York Times)에서 수집한 데이터를 기반으로 하여 24개의 카테고리를 포함하고 있으며, 각 뉴스에 텍스트와 이미지 정보를 모두 포함하는 새로운 데이터셋 N24News를 제안한다. 다중 작업(multitask) 다중모달(multimodal) 방법을 사용한 실험 결과, 텍스트만을 이용한 분류 방식보다 다중모달 뉴스 분류가 더 뛰어난 성능을 보였다. 텍스트 길이에 따라 분류 정확도가 최대 8.11%까지 향상될 수 있음을 확인하였다. 본 연구는 다중모달 분류기의 성능과 그 하위 분류기들 간의 관계를 규명하였으며, 뉴스 분류에 다중모달 기법을 적용할 경우 기대할 수 있는 향상 가능성을 제시한다. N24News는 다중모달 뉴스 연구의 발전에 큰 잠재력을 지닌다는 점이 입증되었다.