18日前

フォーマルなニュース通信ドメインからのハイパーネットを用いたツイッターPOSタギングへの転移

{Xuanjing Huang, Keyu Ding, Di Liang, Tao Gui, Minlong Peng, Qi Zhang, Jingjing Gong}
フォーマルなニュース通信ドメインからのハイパーネットを用いたツイッターPOSタギングへの転移
要約

近年、ツイッターにおける品詞タグ付け(Part-of-Speech tagging, POS tagging)は注目を集めている。多くのPOSタグ付け手法は教師ありモデルに基づいているため、通常、大量のラベル付きデータを用いた学習が必要となる。しかし、ツイッター用のラベル付きデータセットは、ニュース記事(newswire)テキストに比べて著しく規模が小さい。そのため、ツイッターにおけるPOSタグ付けを支援するため、多くのドメイン適応(domain adaptation)手法は、両ドメイン間の共有特徴を学習することで、ニュース記事データセットを活用しようとしている。しかし言語学的視点から見ると、ツイッター利用者は伝統的なメディア、特にニュース記事のような形式的な表現を模倣する傾向がある一方で、同時に非形式的な言語スタイルを独自に発展させているようにも見える。このため、形式的なツイッター文脈におけるPOSタグ付けはニュース記事データセットと併せて学習可能であるが、非形式的なツイッター文脈におけるPOSタグ付けは別途独立して学習する必要がある。本研究では、この課題を達成するために、ハイパーネットワーク(hypernetwork)に基づく手法を提案する。この手法は、異なる表現スタイルを有する文脈を別々にモデル化するための異なるパラメータを生成する。3つの異なるデータセットを用いた実験結果から、本手法はほとんどのケースにおいて最先端の手法を上回る性能を達成したことが示された。