自己説明構造はNLPモデルを改善する

自然言語処理(NLP)分野における深層学習モデルの解釈手法は、従来から以下の二つの主要な課題を抱えていた。(1)主モデルと解釈モデルが分離されていること:既存のモデルの解釈に、追加のプロービングモデルまたは代替モデル(surrogate model)を用いるため、既存の解釈ツールは自己解釈性(self-explainability)を備えていない。(2)プロービングモデルは、個々の語に対する重要度スコア(salience score)を計算することで低レベルの特徴にのみ対応可能であり、表現力の高いテキスト単位(例:語句、文、段落)に対する解釈には不向きである。これらの課題に対処するために、本論文では、NLPにおける深層学習モデルに対してシンプルでありながら汎用的かつ効果的な自己解釈フレームワークを提案する。本フレームワークの核心は、任意の既存NLPモデルの上部に、解釈層(interpretation layer)と呼ばれる追加の層を設ける点にある。この層は、各テキストスパン(text span)ごとに情報を集約し、それぞれに特定の重みを割り当て、その重み付き組み合わせを最終予測のためのsoftmax関数に供給する。本モデルは以下の利点を有する。(1)スパンごとの重みにより、モデルは自己解釈性を備え、解釈のために追加のプロービングモデルを必要としない。(2)本モデルは汎用性が高く、NLPにおける任意の既存深層学習構造に容易に適応可能である。(3)各テキストスパンに紐づく重みは、語句や文といった高レベルのテキスト単位に対する直接的な重要度スコアを提供する。本研究では、解釈性の向上が性能の低下を伴わないことを初めて示した。自己解釈機能を備えたニューラルモデルは、自己解釈性を持たない対応モデルよりも優れた性能を達成し、SST-5で59.1という新たなSOTA(最良の成果)を、SNLIでは92.3という新たなSOTAを達成した。