Command Palette
Search for a command to run...
Jingxuan Wei Caijun Jia Xi Bai Xinglong Xu Siyuan Li Linzhuang Sun Bihui Yu Conghui He Lijun Wu Cheng Tan

要約
統合型マルチモーダルモデル(UMMs)の登場は、人工知能分野におけるパラダイムシフトを示しており、受動的な認識から能動的でクロスモーダルな生成へと進化している。これらのモデルは、情報の統合能力において前例のない成果を上げているが、評価面には依然として重要なギャップが存在する。既存のベンチマークは、主に識別的理解あるいは制約のない画像生成を別々に評価しており、生成的推論という統合的な認知プロセスを測定できていない。このギャップを埋めるために、我々は幾何的構成(geometric construction)が、言語理解と正確な視覚生成の融合を本質的に要するため、理想的な検証環境であると提唱する。そこで、幾何的生成的推論を専門的に評価することを目的として、GGBenchと呼ばれるベンチマークを導入する。本ベンチマークは、モデルが単に理解・推論するだけでなく、能動的に解を構築する能力を体系的に診断する包括的なフレームワークを提供し、次世代の知能システムに向けたより厳格な基準を確立するものである。プロジェクトウェブサイト:https://opendatalab-raiser.github.io/GGBench/