
要約
近年の機械読解に関する研究は、テキストレベルの理解に注目しているが、現実の文書における視覚的レイアウトおよびコンテンツに対する人間の理解レベルにはまだ達していない。本研究では、質問と文書画像を入力として、機械が画像内のテキストを読み取り、自然言語で質問に回答する新しい視覚的機械読解データセット「VisualMRC」を紹介する。既存の画像内テキストを含む視覚的質問応答(VQA)データセットと比較して、VisualMRCは自然言語理解および生成能力の向上に重点を置いている。本データセットは、ウェブページの複数のドメインから収集された10,000枚以上の文書画像に対して、30,000組以上の質問と要約型(abstractive)の回答を含んでいる。また、大規模なテキストコーパスで事前学習された従来のシーケンス・トゥ・シーケンスモデルを拡張し、文書の視覚的レイアウトおよびコンテンツを考慮できる新しいモデルも提案する。VisualMRCを用いた実験の結果、このモデルはベースラインのシーケンス・トゥ・シーケンスモデルおよび最先端のVQAモデルを上回る性能を示したが、多くの自動評価指標において依然として人間の性能には及ばない。本データセットは、視覚と言語理解の統合を図る研究を促進するものとなる。