2ヶ月前
エネルギーに基づく潜在空間を用いた生成 Vision Transformer の学習と注目予測
Jing Zhang; Jianwen Xie; Nick Barnes; Ping Li

要約
ビジョントランスフォーマーネットワークは、多くのコンピュータビジョンタスクにおいて優れた性能を示しています。本論文では、注目物体検出のための情報量に基づく事前分布に従う潜在変数を持つ新しい生成型ビジョントランスフォーマーを提案します。ビジョントランスフォーマーネットワークとエネルギーに基づく事前モデルは、マルコフ連鎖モンテカルロ法による最大尤度推定を通じて共同で学習されます。この過程において、潜在変数の扱いが難しい事後分布および事前分布からのサンプリングはランジュビンダイナミクスによって行われます。さらに、生成型ビジョントランスフォーマーを使用することで、画像から画素単位の不確実性マップを容易に取得でき、これはモデルが画像から注目性を予測する際の信頼度を示します。既存の生成モデルが潜在変数の事前分布を単純な各向同性ガウシアン分布として定義しているのとは異なり、我々のモデルはより表現力豊かなデータの潜在空間を捉えることができる情報量に基づく事前分布を使用します。我々は提案したフレームワークをRGBおよびRGB-D注目物体検出タスクに適用しました。広範な実験結果は、我々のフレームワークが正確な注目性予測だけでなく、人間の知覚と一致する意味のある不確実性マップも達成できることを示しています。