HyperAI超神経

VRC-Bench 視覚推論ベンチマーク データ セット

VRC-Bench は、マルチモーダルなステップバイステップ推論タスク用に特別に設計された最初のベンチマークであり、複雑な推論シナリオにおけるモデルのパフォーマンスを包括的に評価することを目的としており、中央大学のモハメド ビン ザイード人工知能大学によって開発されました。フロリダ大学、リンシェーピング大学、オーストラリア国立大学は2025年に発表される予定で、関連する論文結果は「LlamaV-o1: LLM における段階的な視覚的推論の再考”。最終結果の精度のみに焦点を当てた従来のベンチマークとは異なり、VRC-Bench は各推論ステップの品質の評価に焦点を当て、モデルの機能をより詳細に評価します。

このデータセットは、視覚的推論、数学的および論理的推論、科学的推論、文化的および社会的理解などを含む 8 つの異なる分野の課題をカバーしています。これらのタスクには、複雑な視覚的知覚、科学的推論、医療画像の解釈、および 4K を超えるその他のシナリオが含まれます。手動で検証された推論ステップにより、複数ステップの推論におけるモデルの精度と論理的一貫性の包括的な評価が可能になります。

データ例

VRC-Bench.torrent
シーディング 1ダウンロード中 1ダウンロード完了 19総ダウンロード数 54
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB