Command Palette
Search for a command to run...

要約
スケーリング則は、テキスト、画像、動画といった複数のドメインにおいて、大規模データで学習されたモデルが創造的生成において成功を収め、その可能性を裏付けている。しかし、このアプローチは3D領域ではデータ不足に直面しており、インターネット上に存在する3Dデータは前述のモダリティと比べて著しく少ない。幸いなことに、3Dデータに比べて豊富に存在する動画には、日常的な知識(コモンセンス)に関する事前知識が内在しており、限られた3Dデータに起因する一般化のボトルネックを緩和するための代替的監視信号として有効である。一方で、物体やシーンの複数の視点を捉えた動画は、3D生成における空間的一貫性に関する事前知識を提供する。他方で、動画に含まれる豊富な意味情報により、生成されたコンテンツがテキストプロンプトに忠実であり、意味的に妥当な結果をもたらすことが可能となる。本研究では、3Dアセット生成における動画モダリティの活用方法について、データセットからモデルまで包括的に探求する。我々は、マルチビューレベルのアノテーションを備えた、初めての大規模な動画データセット「Droplet3D-4M」を提案し、画像および高密度テキスト入力をサポートする生成モデル「Droplet3D」を訓練した。広範な実験により、本手法の有効性が検証され、空間的一貫性と意味的に妥当なコンテンツ生成が可能であることが示された。さらに、現在主流の3D生成手法とは異なり、本手法はシーンレベルの応用への拡張可能性を示している。これは、動画に内在するコモンセンス事前知識が3D生成プロセスにおいて重要な役割を果たしていることを示唆している。本研究で開発したすべてのリソース(データセット、コード、技術フレームワーク、モデル重み)をオープンソースとして公開している:https://dropletx.github.io/。