因果関係の注意

コーザル アテンション (CATT) は、特に視覚言語タスクにおいて、因果推論を組み込むことによってモデルの解釈可能性とパフォーマンスを向上させる革新的なアテンション メカニズムです。このメカニズムは2021年にオーストラリアの南洋理工大学とモナシュ大学の研究者によって提案され、関連する論文結果は「視覚言語タスクに対する因果的注意”。

因果的注意の中心的な考え方は、因果推論の「フロントドア基準」を使用して、トレーニング データの偽の相関の問題を解決することです。従来の自己注意メカニズムでは、監視がないため、注意の重みがデータのバイアスの影響を受ける可能性があり、推論中にモデルが誤解を招く可能性があります。たとえば、画像記述タスクで、トレーニング データに「馬車に乗っている人」よりも「馬に乗っている人」のシーンが多い場合、モデルは「馬に乗る」という動作を誤って「人」と「馬」に関連付けることがあります。 , 一方、「馬車」の存在は無視されました。

この問題を解決するために、研究者らは、以下の方法で因果関係を特定し、強化する因果的注意メカニズムを提案しました。

  1. サンプル内アテンション (IS-ATT): 他のサンプルからの干渉を避けるために、単一サンプル内でアテンション計算を実行します。
  2. クロスサンプル アテンション (CS-ATT): 他のサンプルからの情報を現在のサンプルの注意計算に導入し、因果的介入の効果をシミュレートします。

このメカニズムは、Transformer のアテンション モジュールなどの既存のセルフ アテンション メカニズムを置き換えるプラグイン可能なモジュールとして使用できます。実験結果は、因果的注意により、画像の説明や視覚的な質問への応答などのタスクにおけるモデルのパフォーマンスを大幅に向上できることを示しています。