7ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

概要

画像シーケンスに対する自動生成ストーリーの課題として、過度に一般的な語彙や文構造を使用し、人間が生成したテキストの分布的特徴と一致しないことがある。本研究では、画像からシーングラフを抽出することで、物体およびそれらの関係を明示的に表現する手法を導入し、この問題に対処する。従来の研究で用いられた物体分類器からのグローバル特徴と比較して、このシーングラフの埋め込みを活用することで、ストーリー生成過程において物体およびその関係についてより明示的な推論が可能となる。生成されたストーリーの語彙や表現の多様性、および物語的に重要な画像特徴への参照を評価するための指標を適用した結果、本手法が従来のシステムを上回ることが示された。また、実験結果から、本モデルは参照に基づく評価指標においても競争力のある性能を達成していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

概要

画像シーケンスに対する自動生成ストーリーの課題として、過度に一般的な語彙や文構造を使用し、人間が生成したテキストの分布的特徴と一致しないことがある。本研究では、画像からシーングラフを抽出することで、物体およびそれらの関係を明示的に表現する手法を導入し、この問題に対処する。従来の研究で用いられた物体分類器からのグローバル特徴と比較して、このシーングラフの埋め込みを活用することで、ストーリー生成過程において物体およびその関係についてより明示的な推論が可能となる。生成されたストーリーの語彙や表現の多様性、および物語的に重要な画像特徴への参照を評価するための指標を適用した結果、本手法が従来のシステムを上回ることが示された。また、実験結果から、本モデルは参照に基づく評価指標においても競争力のある性能を達成していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています