このデータセットは、上海交通大学がリリースしたマルチモーダルベンチマークテスト MULTI で、複雑な表や画像を理解し、長いテキスト推論を実行するマルチモーダル大規模モデルの能力を評価するように設計されています。このテストでは、さまざまな入力が行われ、実際の試験スタイルを反映した正確な回答または自由回答が求められます。 MULTI には、数式の導出から画像分析、クロスモーダル推論まで、さまざまな範囲のタスクをカバーする 18,000 を超える質問が含まれています。
研究チームはまた、500 問からなる厳選されたパズルのサブセットである MULTI-Elite と、4,500 を超える外部知識コンテキストを含むデータセットである MULTI-Extend も作成しました。 MULTI は、堅牢な評価プラットフォームとして機能するだけでなく、エキスパート AI の開発への道筋も示します。
做种 1
下载中 0
已完成 45
总下载 70