7ヶ月前

概要

常識推論は、深層学習にとって長年の課題となっています。例えば、ニューラルネットワークを用いてWinogradスキーマデータセット（Levesqueら、2011）の問題を解くことは困難です。本稿では、教師なし学習を使用してニューラルネットワークで常識推論を行う単純な方法を提案します。当方法の鍵となるのは、大量のラベル付けされていないデータで訓練された言語モデルを使用し、常識推論テストによって提示される選択肢問題のスコアリングを行うことです。代名詞解釈とWinogradスキーマチャレンジにおいて、当モデルは高価な注釈付き知識ベースや手動で設計された特徴量を使用せずに、従来の最先端手法を大幅に上回る性能を示しました。私たちはLM-1-Billion、CommonCrawl、SQuAD、Gutenberg Booksおよびこのタスクのためにカスタマイズされたコーパスを用いて、単語レベルまたは文字レベルで動作する大規模なRNN言語モデル群を訓練し、訓練データの多様性がテスト性能に重要な役割を果たすことを示しました。さらに分析した結果も示しており、当システムは正解を決定する文脈の重要な特徴を見事に発見しており、常識的な知識に対する良好な理解があることが確認されました。

ソースPDF