
要約
Twitterにおける立場(stance)の検出は、各ツイートの短さ、新しい用語やハッシュタグの継続的な創出、および標準的な文章構造からの逸脱という点で特に困難である。大規模なドメイン特化データを用いたファインチューニングにより、多くの自然言語処理(NLP)タスクにおいて、包括的な言語モデルが新たな最先端の性能を示している。本論文では、ステークホルダの立場を検出するための、BERTに基づく新たなファインチューニング手法を提案する。従来のランダムなトークンマスキングとは異なり、本手法では、立場の区別能が高い語を「重み付きログオッズ比(weighted log-odds-ratio)」を用いて特定し、そのような語に注目するアテンション機構を導入する。実験の結果、2020年米国大統領選挙に関するTwitterデータに対する立場検出において、本手法が既存の最先端手法を上回ることを示した。