Named Entity Recognition における Tweebank コーパスのアノテーションとソーシャルメディア分析用 NLP モデルの構築

ツイッター投稿(「ツイート」)を含むソーシャルメディアデータは、その短さ、ノイズの多さ、口語的な特徴から、自然言語処理(NLP)システムにとって特に挑戦的な課題をもたらす。名前付きエンティティ認識(NER)や句構造解析(syntactic parsing)といったタスクでは、優れた性能を発揮するためには、ドメインに適合した高品質な訓練データが必要不可欠である。これまで、ツイートのNERおよび構文解析(品詞タグ付け、依存構文解析など)の両方をカバーする包括的な訓練コーパスは存在しなかった。現時点で公開されているツイート向けのアノテーション付きNLPデータセットは存在するものの、いずれも個別のタスクに特化しており、複数タスクにわたる統合的なアプローチは実現されていなかった。本研究では、Tweebank V2(TB2)を基盤として、英語用のNERコーパス「Tweebank-NER」を構築し、TB2上で最先端(SOTA)のツイートNLPモデルを訓練し、Twitter専用のNLPパイプライン「Twitter-Stanza」を公開することを目的とする。我々は、Amazon Mechanical Turkを活用してTB2の名前付きエンティティをアノテーションし、アノテーション品質を定量的に評価した。また、StanzaパイプラインをTB2で訓練し、FLAIRやspaCyといった代替的なNLPフレームワークおよびTransformerベースのモデルと比較検証を行った。その結果、StanzaのトークナイザーおよびレマタイザーはTB2においてSOTA性能を達成した一方で、StanzaのNERタガーや品詞(POS)タガーや依存構文解析器は、Transformer以外のモデルと比較しても競争力のある性能を示した。一方で、TransformerベースのモデルはTweebank-NERにおいて強力なベースラインを構築し、TB2におけるPOSタグ付けおよび依存構文解析の新SOTA性能を達成した。本研究では、データセットを公開するとともに、StanzaパイプラインおよびBERTweetベースのモデルを「即時利用可能(off-the-shelf)」の形で提供し、今後のツイートNLP研究を支援する。本研究のソースコード、データ、および事前学習済みモデルは以下のURLから入手可能である:\url{https://github.com/social-machines/TweebankNLP}。