17日前
埋め込みに基づくクラスタリングによるターゲット固有の立場分析:分極化したトルコを事例として
Ammar Rashed, Mucahid Kutlu, Kareem Darwish, Tamer Elsayed, Cansın Bayrak

要約
2018年6月24日、トルコは新しい大統領制下での初回選挙を実施し、国民が大統領および議会議員を同時に選出する、極めて重要な選挙を実施した。選挙期間中、トルコ国民はツイッター上で広範にわたって政治的意見を共有した。有権者の間における分極化の一つの側面として、レジェップ・タイイップ・エルドアン大統領の再選を支持するか、反対するかの立場の差が顕著であった。本論文では、分極化した状況下におけるターゲット特化型の立場検出(stance detection)のための非教師あり手法を提示する。本手法は、トルコ政治を対象に、ユーザーの立場を識別する際、90%の精度を達成しつつ、80%以上の再現率を維持している。この手法では、Google社が開発した多言語対応のユニバーサルセンテンスエンコーダ(Convolutional Neural Network: CNNベース)を用いて、ユーザーを埋め込み空間(embedding space)に表現する。その後、ユーザー表現を類似性を反映する形で低次元空間に射影し、クラスタリングを行う。本研究では、政治的人物、異なる集団、政党といった複数のターゲットにおいて、立場が異なるグループのユーザーを適切にクラスタリングできることを示した。分析は、1億800万件のトルコ選挙関連ツイートおよび16万8千人のトルコユーザーのタイムラインツイート(合計2億1300万件)から構成される大規模データセットを用いて実施した。得られたユーザーの立場情報をもとに、トピック間の相関関係を観察し、トピックごとの分極度を定量的に算出することが可能となった。