HyperAIHyperAI

Command Palette

Search for a command to run...

言語モデルはパズルの才能児か?アルゴリズム的パズルが多モーダル推論における深刻な課題を明らかにする

Deepanway Ghosal Vernon Toh Yan Han Chia Yew Ken Soujanya Poria

概要

本稿では、視覚質問応答(VQA)の文脈において、マルチモーダル・パズル解法という新しいタスクを提案する。本研究では、視覚的理解、言語的理解、および複雑なアルゴリズム的推論を必要とするアルゴリズム的パズルを解く能力を評価・検証するため、新しいデータセット「AlgoPuzzleVQA」を提示する。このデータセットは、ブール論理、組合せ論、グラフ理論、最適化、探索など、多様な数学的およびアルゴリズム的トピックをカバーするパズルで構成されており、視覚データの解釈能力とアルゴリズム的問題解決能力の間のギャップを評価することを目的としている。データセットは、人間が記述したコードから自動生成されており、すべてのパズルは正確な解を持ち、人間による煩雑な計算を経ることなく、アルゴリズムそのものから導出可能である。この特性により、推論の複雑さやデータセットの規模を任意に拡張可能な点が保証される。我々の調査結果から、GPT-4VやGeminiといった大規模言語モデル(LLM)は、パズル解法タスクにおいて限界のある性能を示すことが明らかになった。特に、複数選択形式の質問応答設定において、多数のパズルでモデルの性能はランダムに近い水準にとどまっている。これらの結果は、複雑な推論問題を解くにあたり、視覚的知識、言語的知識、アルゴリズム的知識を統合する課題の大きさを強調している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています