3ヶ月前

マルチリンガルオープン情報抽出のためのアライメント拡張型一貫性翻訳

{Mausam ., Soumen Chakrabarti, Shubham Mittal, Muqeeth Mohammed, Keshav Kolluru}
マルチリンガルオープン情報抽出のためのアライメント拡張型一貫性翻訳
要約

教師ありオープン情報抽出(OpenIE)の進展は、他の言語における学習データの不足により、主に英語に限定されてきた。本論文では、他の言語用のOpenIEシステムの学習に向けた英語テキストを自動的に変換する手法を検討する。我々は、英語文とその対応する抽出結果を一貫して翻訳するための「アライメント拡張型制約付き翻訳モデル(Alignment-Augmented Constrained Translation, AACTrans)」を提案する。このモデルは、独立した翻訳によって生じる語彙や意味の変化を一切避け、文と抽出結果の整合性を保つ。AACTransによって生成されたデータを用いて、2段階の生成型OpenIEモデルであるGen2OIEを訓練する。Gen2OIEは、各文に対して1)第1段階で関係(relation)を出力し、2)第2段階でその関係を含むすべての抽出結果を出力する。従来のモデルが英語特有の損失関数に依存しているのに対し、Gen2OIEは複数言語に一般化可能な訓練データ変換技術を用いることで、関係のカバレッジを拡大する。スペイン語、ポルトガル語、中国語、ヒンディー語、テルグ語の5言語における評価結果から、AACTransデータを用いたGen2OIEは、既存システムに対してF1スコアで6~25%の優位性を示した。