
要約
小説の対象年齢層を自動的に特定できる能力は、情報検索ツールの開発に多様な機会を提供する。まず、書籍推薦システムや電子図書館の開発者にとっては、読者の最も可能性の高い年齢層に基づいてテキストをフィルタリングする手段として有用である。次に、保護者にとっては子ども向けの文学作品を選定する際に役立つ。さらに、著者や出版社にとっても、作品が子ども向けに適しているかどうかを左右する要因を把握する上で有益となる。本稿では、フィクションテキストの年齢分類というタスクにおいて、さまざまな言語的特徴量の実証的有効性を比較検討する。そのために、子ども向けまたは成人向けのいずれかのカテゴリにラベル付けされた書籍紹介文のコーパスを収集した。評価対象とした特徴量は、読解性指標、感情分析、語彙的特徴、文法的特徴、一般特徴、および出版に関する属性である。得られた結果から、ドキュメントレベルでテキストを記述する特徴量が、機械学習モデルの性能を著しく向上させることを示している。