
要約
我々は、非監督のオブジェクト中心表現学習および多オブジェクト検出とセグメンテーションの新しいアーキテクチャを提案します。このアーキテクチャは、翻訳同変性注意機構(translation-equivariant attention mechanism)を使用して、シーンに存在するオブジェクトの座標を予測し、各オブジェクトに関連する特徴ベクトルを関連付けます。トランスフォーマーエンコーダーが被塞(occlusions)と冗長な検出を処理し、畳み込み自己符号化器(convolutional autoencoder)が背景再構成を担当します。実験結果から、このアーキテクチャが複雑な合成ベンチマークにおいて現行の最先端技術を大幅に上回ることが示されています。