Command Palette

Search for a command to run...

UNO-Bench フルモーダル評価ベンチマークデータセット

日付

6日前

組織

論文URL

2510.18915

ライセンス

MIT

UNO-Benchは、2025年にMeituanのLongCatチームによってリリースされた最初の統合フルモーダル評価ベンチマークです。関連論文のタイトルは「UNO-Bench: オムニモデルにおけるユニモーダルとオムニモーダル間の構成法則を探るための統一ベンチマーク目標は、シングルモーダルおよびマルチモーダルの理解能力を効率的に評価することです。

このデータセットには、98%のクロスモーダル解法を持つ1250個のフルモーダルサンプルと2480個のシングルモーダルサンプルが含まれており、44種類のタスクタイプと5種類のモーダリティの組み合わせをカバーしています。データセットには、6種類の質問タイプの自動評価をサポートする汎用スコアリングモデルも含まれており、マルチモーダルタスクの統一された評価基準を提供します。フルモーダルサンプルは、特に中国語の文脈に適した、実際のアプリケーションに近づけるよう人間によって慎重に構築されています。シングルモーダルサンプルは、基本的な認知機能と能力の側面を補完することで、全体的な評価をより包括的なものにしています。

データ構造:

データは Parquet 形式で保存され、各サンプルには構造化フィールドが含まれています。

  • qid (サンプルID)、subset_name (サブセット名)。
  • 質問(テキストによる質問)と回答(標準的な回答)
  • 画像 / 音声 / ビデオ (マルチモーダル コンテンツ、ファイル パスは辞書として保存され、存在しない場合は null)。
  • task (44 個のタスク タグ)、ability (能力タイプ)、source (データ ソース)、score_type (スコアリング方法)。
データセットの例

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UNO-Bench フルモーダル評価ベンチマークデータセット | データセット | HyperAI超神経