8ヶ月前

概要

最近の画像コンテンツ操作に関する研究では、ビジョン言語事前学習モデルを活用してテキスト駆動型3Dシーン編集に効果的に拡張しています。しかし、現行の3Dシーン編集手法には依然として一定の課題が存在し、それらがさらなる対話型デザインの発展を妨げています。これらの手法は通常、固定された入力パターンに従っており、ユーザーのテキスト入力の柔軟性を制限しています。さらに、編集機能は1つまたは少数の2D視覚モデルに依存しており、これらのモデルを3D再構築プロセスに統合するためには複雑なパイプライン設計が必要です。上記の問題に対処するために、私たちは大規模言語モデルを中心に据えた対話型3Dシーン編集手法であるCE3D（Conversational Editing for 3D Scenes）を提案します。この手法はユーザーからの任意のテキスト入力を許可し、その意図を解釈することで、対応する視覚専門モデルを自律的に呼び出すことを可能にします。また、Hash-Atlasを利用した3Dシーンビュー表現スキームを設計しました。これにより、3Dシーンの編集が2Dアトラス画像への変換によって行われるようになり、2D編集と3D再構築プロセス間で完全な分離が実現されます。これによりCE3Dは既存の2Dや3D視覚モデルを広範囲にわたって柔軟に統合でき、複雑な融合設計を必要としません。実験結果は、CE3Dが複数の視覚モデルを効果的に統合し、多様な編集ビジュアル効果を達成できることを示しています。また、強いシーン理解能力とマルチラウンド対話機能を持つことが確認されています。コードは以下のURLから入手可能です: https://sk-fun.fun/CE3D.

ソースPDF コードを表示