
要約
研究者は科学論文において図を用いて豊かで複雑な情報を伝える。このような図のキャプションは、効果的なメッセージ伝達にとって極めて重要である。しかし、科学論文において低品質な図のキャプションが頻発しており、理解を妨げる要因となることがある。本論文では、科学図に適した情報量豊かで高品質なキャプションを自動生成するエンドツーエンドのニューラルフレームワークを提案する。そのために、2010年から2020年にかけて公開されたコンピュータサイエンス分野のarXiv論文を対象として、大規模な図-キャプションデータセット「SCICAP」を構築した。前処理として、図の種類分類、サブ図の同定、テキストの正規化、キャプションテキストの選定を実施した結果、29万篇以上の論文から抽出された200万件を超える図を含むデータセットが完成した。さらに、図のうち最も頻度が高い(19.2%)グラフプロットを対象に、ベースラインモデルを構築した。実験の結果、科学図のキャプション生成における潜在的な機会と、同時に直面する大きな課題の両方が明らかになった。