11日前

OctFormer:3次元ポイントクラウド向けオクツリー基盤Transformer

Peng-Shuai Wang
OctFormer:3次元ポイントクラウド向けオクツリー基盤Transformer
要約

3次元点群学習のため、オクトリーに基づくトランスフォーマー、すなわちOctFormerを提案する。OctFormerは、3次元点群のセグメンテーションやオブジェクト検出における汎用的かつ効果的なバックボーンとして機能するだけでなく、線形計算量を実現し、大規模な点群に対してもスケーラブルである。点群にトランスフォーマーを適用する際の主な課題は、注意機構(attention)が二次関数的(quadratic)に増大する計算量を低減することである。この問題に対処するために、既存の手法では点群を重複のない窓(window)に分割し、各局所窓内でのみ注意機構を制約するアプローチが採られている。しかし、各窓内の点数が大きく変動するため、GPU上で効率的な実行が困難となる。本研究では、注意機構が局所窓の形状に頑健であることに着目し、新たなオクトリー注意機構(octree attention)を提案する。この機構は、オクトリーのソート済みシャッフルキーを用いて、点群を固定点数を含む局所窓に分割しつつ、窓の形状の自由な変化を許容する。さらに、受容 field(受容野)を拡大するため、拡張オクトリー注意機構(dilated octree attention)も導入する。本研究で提案するオクトリー注意機構は、オープンソースライブラリを用いて10行程度のコードで実装可能であり、点数が20万を超える場合、他の点群用注意機構と比較して17倍高速に動作する。このオクトリー注意機構を基盤とすることで、OctFormerは容易にスケーリング可能であり、多数の3次元セグメンテーションおよび検出ベンチマークにおいて最先端の性能を達成した。従来のスパースボクセルベースのCNNおよび点群用トランスフォーマーと比較して、効率性と有効性の両面で優れた結果を示した。特に、難易度の高いScanNet200データセットにおいて、OctFormerはスパースボクセルCNNよりもmIoUで7.3ポイント高い性能を達成した。本研究のコードおよび学習済みモデルは、https://wang-ps.github.io/octformer にて公開されている。

OctFormer:3次元ポイントクラウド向けオクツリー基盤Transformer | 最新論文 | HyperAI超神経