Command Palette
Search for a command to run...
{Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong}

要約
画像シーケンスに対する自動生成ストーリーの課題として、過度に一般的な語彙や文構造を使用し、人間が生成したテキストの分布的特徴と一致しないことがある。本研究では、画像からシーングラフを抽出することで、物体およびそれらの関係を明示的に表現する手法を導入し、この問題に対処する。従来の研究で用いられた物体分類器からのグローバル特徴と比較して、このシーングラフの埋め込みを活用することで、ストーリー生成過程において物体およびその関係についてより明示的な推論が可能となる。生成されたストーリーの語彙や表現の多様性、および物語的に重要な画像特徴への参照を評価するための指標を適用した結果、本手法が従来のシステムを上回ることが示された。また、実験結果から、本モデルは参照に基づく評価指標においても競争力のある性能を達成していることが明らかになった。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| visual-storytelling-on-vist | SGEmb | BLEU-1: 62.2 BLEU-2: 38.7 BLEU-3: 23.5 BLEU-4: 14.8 CIDEr: 8.6 METEOR: 35.6 ROUGE-L: 30.2 |