16日前

ORCAS-I:弱教師付きラベルを用いた意図付きクエリのアノテーション

Daria Alexander, Wojciech Kusa, Arjen P. de Vries
ORCAS-I:弱教師付きラベルを用いた意図付きクエリのアノテーション
要約

ユーザの意図分類は情報検索において重要なタスクである。本研究では、ユーザの意図をより精緻に分類するための改訂版分類体系を提案する。既に広く用いられているナビゲーショナル、トランザクショナル、インフォメーショナルという三つのクエリタイプの区別を出発点とし、インフォメーショナルクエリに対して、さらに三つのサブクラス——インストルメンタル、ファクトゥアル、アボステイン——を特定した。この新たな分類体系は、より細分化された分類を実現し、アノテーター間の整合性が高く、効果的な自動分類プロセスの基盤として利用可能である。新しく導入されたカテゴリは、検索システムが対応可能なクエリの種類を明確に区別できるようにし、たとえばランキングにおいて異なる結果の優先順位を設定するといった応用が可能となる。本研究では、Snorkelを用いた弱教師ありアプローチにより、ORCASデータセットを新たなユーザ意図分類体系に基づいてラベル付けした。既存のヒューリスティクスとキーワードを活用して、意図カテゴリを予測するルールを構築した。その後、これらの弱教師ラベルを訓練データとして用い、多様な機械学習モデルを用いた実験を実施したが、Snorkelによるラベル付け結果は、比較的高い性能を示し、他の手法を上回ることはなく、現状の最先端(state-of-the-art)と見なせる結果となった。Snorkelのようなルールベースアプローチの利点は、実際のシステムに効率的に導入できることにある。すなわち、ユーザーが発行するすべてのクエリに対して意図分類をリアルタイムで実行できる点が、実用性の高い特徴である。本研究と併せて公開されたリソースは、ORCAS-Iデータセットである。これはWebクエリのクリックに基づくORCASデータセットのラベル付きバージョンであり、1000万件の異なるクエリに対して1800万件の接続を提供している。

ORCAS-I:弱教師付きラベルを用いた意図付きクエリのアノテーション | 最新論文 | HyperAI超神経