DiT-3D: 平面ディフュージョントランスフォーマーを用いた3D形状生成の探索

最近の拡散トランスフォーマー(例:DiT)は、高品質な2D画像の生成においてその強力な効果を示しています。しかし、トランスフォーマー構造が3D形状生成でも同様に優れた性能を発揮するかどうかはまだ明確ではありません。これまでの3D拡散手法では主にU-Netアーキテクチャが採用されてきました。このギャップを埋めるために、私たちは新たな3D形状生成用の拡散トランスフォーマーであるDiT-3Dを提案します。このモデルは、純粋なトランスフォーマーを使用してボクセル化された点群データに対して直接的にデノイジングプロセスを行うことができます。既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズのスケーラビリティが高く、より高品質な生成物を産出します。具体的には、DiT-3DはDiTの設計思想を取り入れつつ、3D位置情報とパッチ埋め込みを組み込むことでボクセル化された点群データからの入力を適応的に集約するように改良されています。3D形状生成における自己注意機構の計算コストを削減するために、トランスフォーマーブロックに3Dウィンドウ注意機構を導入しました。これは、ボクセルによる追加次元により増大した3Dトークン長が高計算量につながるためです。最後に、線形層とデボクセル化層を使用してデノイジング後の点群データを予測します。さらに、私たちのトランスフォーマーアーキテクチャは2Dから3Dへの効率的なファインチューニングをサポートしており、ImageNetで事前学習されたDiT-2DチェックポイントがShapeNetでのDiT-3Dの性能向上に大きく貢献します。ShapeNetデータセットにおける実験結果は、提案されたDiT-3Dが忠実度と多様性の高い3D点群データ生成において最先端の性能を達成していることを示しています。特に、チェッファー距離に基づいて評価した場合、私たちのDiT-3Dは最先端手法よりも1-最寄り近傍精度(1-Nearest Neighbor Accuracy)を4.59低下させるとともに、カバレッジ指標(Coverage metric)を3.51向上させています。