2ヶ月前

UCPhrase: 監督なし文脈対応の高品質フレーズタギング

Xiaotao Gu; Zihan Wang; Zhenyu Bi; Yu Meng; Liyuan Liu; Jiawei Han; Jingbo Shang
UCPhrase: 監督なし文脈対応の高品質フレーズタギング
要約

文脈から品質の高いフレーズを特定し理解することは、テキストマイニングにおける基本的なタスクである。このタスクの中で最も困難な部分は、一般的でない、新興の、および領域固有のフレーズにあると主張できる。これらのフレーズの頻度が低い特性は、入力コーパスでの十分な出現回数に依存するフレーズマイニング手法の性能に大きく影響を与える。文脈認識型タグ付けモデルは、頻度に制限されない一方で、大量の文章レベルのゴールドラベルや手作業によるリスト(gazetteers)を提供する領域専門家に大きく依存している。本研究では、UCPhraseという新しい無教師文脈認識型品質フレーズタガーを提案する。具体的には、各ドキュメント内で一貫して共起する単語列から高品質なフレーズ範囲を銀ラベルとして導出する。既存の知識ベース(KBs)に基づく典型的な文脈非認識型遠隔監督と比較して、我々の銀ラベルは入力領域と文脈に深く根ざしており、文脈の一貫性を保ちつつ新興のまたはKB外のフレーズを捉えるという独自の利点がある。銀ラベルに基づいて従来のニューラルタガーを訓練すると、通常はフレーズ表面名への過学習リスクが高まる。これに対して、トランスフォーマーに基づくニューラル言語モデルから生成される文脈化された注意マップが、表面名に関係なく単語間の関連性を効果的に明らかにすることが観察された。したがって、このような注意マップと銀ラベルを組み合わせて軽量なスパン予測モデルを訓練し、新しい入力に対してその表面名や頻度に関わらず(未見の)品質フレーズを認識するために使用できるようにした。コーパスレベルでのフレーズランキング、ドキュメントレベルでのキーフレーズ抽出、文章レベルでのフレーズタギングなど様々なタスクとデータセットに対する詳細な実験により、我々の設計が最先端の事前学習済み無教師および遠隔監督手法よりも優れていることが示された。

UCPhrase: 監督なし文脈対応の高品質フレーズタギング | 最新論文 | HyperAI超神経