
要約
現在のニュースデータセットは、ニュースのテキスト特徴にのみ注目しており、画像の特徴を十分に活用しておらず、ニュース分類に不可欠な多数の特徴を欠いている。本論文では、ニューヨーク・タイムズから抽出された24のカテゴリを有する、テキストと画像情報を両方含む新しいデータセットN24Newsを提案する。本研究ではマルチタスク・マルチモーダル手法を採用し、実験結果から、テキストのみを用いた分類法に比べ、マルチモーダルなニュース分類が優れた性能を示すことが明らかになった。テキストの長さに応じて、分類精度は最大8.11%向上する可能性がある。本研究は、マルチモーダル分類器の性能とそのサブ分類器との関係を明らかにし、ニュース分類におけるマルチモーダル手法の導入による潜在的な改善点も示している。N24Newsは、マルチモーダルニュース研究の発展に大きな可能性を秘めていることが示された。