Command Palette
Search for a command to run...
CompreCap 画像記述データセット
CompreCap データセットは、詳細な画像の説明を生成する際の大規模な視覚言語モデルの精度と包括性を評価するために、中国科学技術大学や Ant Group などの機関によって 2024 年に共同で作成されました。関連する論文の結果は次のとおりです。包括的な画像キャプションのための有向シーングラフによる大規模視覚言語モデルのベンチマーク”。データセットには 560 の画像が含まれており、それぞれの画像にはオブジェクト、属性、関係性の細かいセマンティック セグメンテーションと注釈が付けられており、完全な有向シーン グラフ構造を形成しています。
データセットの構築は MSCOCO パノラマ セグメンテーション データセットに基づいていますが、拡張および改善されています。研究者らは、複数のよく知られたデータセットから一般的なオブジェクト カテゴリの語彙を構築し、これらのカテゴリに再注釈を付けて、より正確なセマンティック セグメンテーション マスクを提供しました。注釈の完全性を保証するために、分割領域が 95% 画像領域を超える画像のみが保持されます。その後、研究者らはこれらのオブジェクトに詳細な属性の説明を手動で追加し、オブジェクト間の重要な関係をマークして、完全な有向シーン グラフ構造を形成しました。
CompreCap データセットのアノテーション情報には、オブジェクトのセマンティック セグメンテーション マスク、詳細な属性の説明、オブジェクト間の方向関係が含まれます。このアノテーション情報は、一般的なオブジェクト カテゴリをカバーするだけでなく、オブジェクト間の複雑な関係を指向性シーン グラフの形式でキャプチャし、データセットが詳細な画像記述の生成の品質を包括的に評価できるようにします。
