6ヶ月前

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

Ruize Wang Zhongyu Wei Ying Cheng Piji Li Haijun Shan Ji Zhang Qi Zhang Xuanjing Huang

概要

視覚的ストーリーテリングは、画像の連続から自動的に物語文を生成することを目的としている。従来のアプローチは、各画像に対して独立にテキスト記述を生成し、それを粗く連結して物語とするが、この手法は意味的に整合性のないコンテンツを生成するという問題を抱えている。本研究では、画像ストリームの全体的な意味的文脈を検出するためのトピック記述タスクを導入することで、視覚的ストーリーテリングの新しいアプローチを提案する。その後、得られたトピック記述をガイドとして物語を構築する。2つの生成タスクを統合するため、トピック記述生成器と物語生成器を2つのエージェントとして捉え、反復更新機構を用いて同時に学習するマルチエージェント通信フレームワークを提案する。本手法はVISTデータセット上で検証され、定量的評価、アブレーション実験および人間評価の結果から、最先端手法と比較してより高品質な物語生成能力を有していることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

Ruize Wang Zhongyu Wei Ying Cheng Piji Li Haijun Shan Ji Zhang Qi Zhang Xuanjing Huang

概要

視覚的ストーリーテリングは、画像の連続から自動的に物語文を生成することを目的としている。従来のアプローチは、各画像に対して独立にテキスト記述を生成し、それを粗く連結して物語とするが、この手法は意味的に整合性のないコンテンツを生成するという問題を抱えている。本研究では、画像ストリームの全体的な意味的文脈を検出するためのトピック記述タスクを導入することで、視覚的ストーリーテリングの新しいアプローチを提案する。その後、得られたトピック記述をガイドとして物語を構築する。2つの生成タスクを統合するため、トピック記述生成器と物語生成器を2つのエージェントとして捉え、反復更新機構を用いて同時に学習するマルチエージェント通信フレームワークを提案する。本手法はVISTデータセット上で検証され、定量的評価、アブレーション実験および人間評価の結果から、最先端手法と比較してより高品質な物語生成能力を有していることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています