Command Palette

Search for a command to run...

19日前

テキスト、音声、画像、動画のマルチモーダル生成のためのノードベース編集

Alexander Htet Kyaw Lenin Ravindranath Sivalingam

テキスト、音声、画像、動画のマルチモーダル生成のためのノードベース編集

要約

本稿では、マルチモーダルなコンテンツ生成を目的としたノードベースの物語生成システムを提案する。本システムは、物語をノードのグラフとして表現し、ユーザーによる直接的な編集や自然言語プロンプトを通じて、ノードの拡張・編集・段階的改善が可能である。各ノードはテキスト、画像、音声、動画を統合でき、クリエイターがマルチモーダルな物語を構成できる。タスク選択エージェントが、物語生成、ノード構造の推論、ノード図のフォーマット、文脈生成といった専門的な生成タスクの間を適切にルーティングする。インターフェースは、個々のノードに対するターゲット編集、並行する物語線の自動分岐、ノードベースの段階的改善をサポートしている。実験結果から、ノードベースの編集が物語構造の制御およびテキスト・画像・音声・動画の段階的生成を可能にすることが示された。また、自動的な物語アウトライン生成に関する定量的評価と、編集ワークフローに関する定性的観察を報告する。最後に、長編物語へのスケーラビリティや複数ノード間の一貫性といった現時点での限界について議論し、人間を含むループ型(human-in-the-loop)かつユーザー中心のクリエイティブAIツールの今後の研究方向性を示す。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキスト、音声、画像、動画のマルチモーダル生成のためのノードベース編集 | 論文 | HyperAI超神経