Command Palette
Search for a command to run...
ARKit LabelMaker: 室内3Dシーン理解の新しい尺度
ARKit LabelMaker: 室内3Dシーン理解の新しい尺度
Guangda Ji Silvan Weder Francis Engelmann Marc Pollefeys Hermann Blum
概要
ニューラルネットワークの性能は、そのサイズと学習データ量に比例して向上します。これは言語生成や画像生成の両分野で示されています。しかし、これにはスケーリングに適したネットワークアーキテクチャと大規模なデータセットが必要です。3Dビジョンタスク向けにスケーリングに適したアーキテクチャ(例えばトランスフォーマー)が登場していますが、学習データの不足により3DビジョンにおけるGPTのような瞬間はまだ遠いと言えます。本論文では、初めての大規模かつ実世界の3Dデータセットであり、密度の高い意味的注釈を含むARKit LabelMakerを紹介します。具体的には、大規模な自動生成による密度の高い意味的注釈を追加することでARKitScenesデータセットを補完します。この目的のために、最近開発された自動注釈パイプラインであるLabelMakerを拡張し、大規模事前学習のニーズに対応させました。これは最先端のセグメンテーションモデルをパイプラインに追加するとともに、大規模処理の課題に対する堅牢性を高めることを含みます。さらに、一般的な3D意味的セグメンテーションモデルを使用してScanNetおよびScanNet200データセットでの最先端性能を向上させることで、当社が生成したデータセットの有効性を示しています。