8日前

自己回帰型エンティティ検索

Nicola De Cao, Gautier Izacard, Sebastian Riedel, Fabio Petroni
自己回帰型エンティティ検索
要約

エンティティは、知識の表現および集約において中心的な役割を果たしています。たとえば、Wikipedia などの百科事典は、各記事が1つのエンティティに対応する形で構造化されています。クエリに対して適切なエンティティを検索できる能力は、エンティティリンクやオープンドメイン質問応答といった知識集約型タスクにおいて基本的な要件です。現在のアプローチは、各エンティティに対して1つの原子ラベルを持つ分類器として捉えることができます。これらのアプローチでは、エンティティの説明などのメタ情報をエンコードすることで得られる密なベクトル表現(重みベクトル)が用いられます。しかし、このアプローチには以下の課題があります:(i) コンテキストとエンティティの関連性は主にベクトルの内積によって捉えられるため、細かい相互作用を漏れがちにしている;(ii) 大規模なエンティティ集合を扱う場合、密な表現を保持するためのメモリ使用量が非常に大きくなる;(iii) 学習時に適切な難易度のネガティブデータをサブサンプリングする必要がある。本研究では、エンティティの固有名を逐次的に左から右へ、トークン単位で自己回帰的に生成することでエンティティを検索する、GENRE と呼ばれる初めてのシステムを提案します。このアプローチにより、上記の技術的課題を効果的に緩和できます:(i) 自己回帰形式により、コンテキストとエンティティ名の間の関係を直接捉えることができ、両者を効果的にクロスエンコーディングすることができる;(ii) エンコーダ・デコーダアーキテクチャのパラメータ数はエンティティ数ではなく語彙サイズに比例するため、メモリ使用量が大幅に削減される;(iii) ネガティブデータのサブサンプリングなしでソフトマックス損失を計算可能である。我々は、エンティティの曖昧性解消、エンドツーエンドエンティティリンク、ドキュメント検索といったタスクにおいて20以上のデータセットを用いて実験を行い、競合システムに比べて極めて小さなメモリ使用量で、新たなSOTA(最良)または非常に競争力のある結果を達成しました。さらに、新規エンティティの追加は、その名前を単に指定するだけで可能であることを実証しました。コードおよび事前学習モデルは https://github.com/facebookresearch/GENRE にて公開されています。

自己回帰型エンティティ検索 | 最新論文 | HyperAI超神経