Command Palette
Search for a command to run...
UNO-Bench フルモーダル評価ベンチマークデータセット
UNO-Benchは、2025年にMeituanのLongCatチームによってリリースされた最初の統合フルモーダル評価ベンチマークです。関連論文のタイトルは「UNO-Bench: オムニモデルにおけるユニモーダルとオムニモーダル間の構成法則を探るための統一ベンチマーク目標は、シングルモーダルおよびマルチモーダルの理解能力を効率的に評価することです。
このデータセットには、98%のクロスモーダル解法を持つ1250個のフルモーダルサンプルと2480個のシングルモーダルサンプルが含まれており、44種類のタスクタイプと5種類のモーダリティの組み合わせをカバーしています。データセットには、6種類の質問タイプの自動評価をサポートする汎用スコアリングモデルも含まれており、マルチモーダルタスクの統一された評価基準を提供します。フルモーダルサンプルは、特に中国語の文脈に適した、実際のアプリケーションに近づけるよう人間によって慎重に構築されています。シングルモーダルサンプルは、基本的な認知機能と能力の側面を補完することで、全体的な評価をより包括的なものにしています。
データ構造:
データは Parquet 形式で保存され、各サンプルには構造化フィールドが含まれています。
- qid (サンプルID)、subset_name (サブセット名)。
- 質問(テキストによる質問)と回答(標準的な回答)
- 画像 / 音声 / ビデオ (マルチモーダル コンテンツ、ファイル パスは辞書として保存され、存在しない場合は null)。
- task (44 個のタスク タグ)、ability (能力タイプ)、source (データ ソース)、score_type (スコアリング方法)。
