
ステークス検出(Stance Detection)は、著者が特定の対象について表明する態度を識別することを目的とするタスクであり、ソーシャルメディアにおける意見の特定から法的主張に対する立場の検出に至るまで、多様な分野にまたがる。しかし、これらの分野におけるタスクの定式化は、データ収集プロトコル、ラベル辞書、および利用可能なアノテーション数という点で異なり、それぞれの領域においてフレーミングが異なる。さらに、これらのステークスアノテーションは、トピックごとおよびトピック間で著しく不均衡である。このような状況は、マルチドメインにおけるステークス検出を困難な課題としている。この課題に対処するため、我々は「トピック効率的ステークス検出(Topic Efficient Stance Detection, TESTED)」を提案する。本手法は、トピック誘導型の多様性サンプリング技術と、ステークス分類器のファインチューニングに用いるコントラスト学習目的関数から構成されている。我々は、16のデータセットからなる既存のベンチマーク上において、インドメイン(すべてのトピックを既に学習済み)およびアウトオブドメイン(未学習のトピック)の両方の設定で実験を行った。その結果、提案手法は、インドメイン評価において平均3.5 F1スコアの向上を達成し、従来の最先端手法を上回った。また、アウトオブドメイン評価では平均10.2 F1スコアの向上を示し、訓練データの10%以下でこの性能を達成した。これにより、本手法のサンプリング技術がトピック間およびトピック内におけるクラス不均衡の両方を緩和できることを示した。さらに、分析により、コントラスト学習目的関数が、異なるラベルを持つサンプル間の明確な分離をモデルに可能にしていることが明らかになった。