
要約
3D交通シーンは、車両オブジェクトに関するポーズや形状といった多様な3D情報を含む。しかし、近年の大多数の研究では、詳細な形状の再構成にあまり注目が向けられていない。さらに、多くの研究は各3Dオブジェクトを独立した個体として扱っているため、オブジェクト間の相対的文脈や道路状況を反映するシーン全体の文脈が損なわれている。本研究では、バイコンテキストアテンションとアテンション誘導モデリング(BAAM)を基盤とする新しい単眼3Dポーズおよび形状再構成アルゴリズムを提案する。まず、2Dプリミティブを入力として、検出されたオブジェクトと車両形状の事前知識との関連性を考慮したアテンション誘導モデリングにより、3Dオブジェクト形状を再構成する。次に、オブジェクト間の関係文脈とオブジェクトと道路環境とのシーン文脈を活用するバイコンテキストアテンションを用いて、3Dオブジェクトのポーズを推定する。最後に、鳥瞰図(Bird-Eye-View)距離に基づいて不正なオブジェクトを除去するための3D非最大抑制(non maximum suppression)アルゴリズムを提案する。広範な実験により、提案するBAAMがApolloCar3Dにおいて最先端の性能を達成することが示された。また、KITTIデータセットにおいて既存の成熟した単眼3Dオブジェクト検出器にBAAMを容易に統合可能であり、性能を顕著に向上させることも確認された。