17日前

ViT-NeT:ニューラルツリー・デコーダを備えた解釈可能なビジョン・トランスフォーマー

{Sangwon Kim; Jaeyeal Nam; Byoung Chul Ko}
ViT-NeT:ニューラルツリー・デコーダを備えた解釈可能なビジョン・トランスフォーマー
要約

ビジョントランスフォーマー(ViT)は、画像分類において最先端の性能を示しており、注目(attention)に基づく寄与度を用いてグローバルな解釈を可視化することも可能である。しかし、モデルの複雑さにより、意思決定プロセスの解釈が困難となり、注目マップの曖昧さが画像パッチ間の誤った相関関係を引き起こす可能性がある。本研究では、新たなViTニューラルツリー・デコーダ(ViT-NeT)を提案する。ViTをバックボーンとして用い、その限界を克服するため、出力された文脈的な画像パッチを提案するNeTに供給する。NeTは、クラス間の類似性が高く、クラス内での差異が明確な微細な物体を高精度に分類することを目的としており、さらにツリー構造とプロトタイプを用いて意思決定プロセスを記述し、結果の可視化による解釈を可能にする。提案手法であるViT-NeTは、分類性能の向上に加え、人間にとって理解しやすい解釈を提供する点で、性能と解釈可能性のトレードオフを効果的に解決することを目的として設計されている。広く用いられている微細な視覚カテゴリ化ベンチマークデータセットを用いて、ViT-NeTの性能を他の最先端手法と比較した結果、分類性能および解釈可能性の両面で優れた性能を実証した。コードおよびモデルは、https://github.com/jumpsnack/ViT-NeT にて公開されている。

ViT-NeT:ニューラルツリー・デコーダを備えた解釈可能なビジョン・トランスフォーマー | 最新論文 | HyperAI超神経