HyperAIHyperAI

Command Palette

Search for a command to run...

ゼブラ・コット:インタリーブドビジョン言語推論のためのデータセット

概要

人間は、複雑な問題を解決する際によく視覚的な補助手段、例えば図表やスケッチなどを用いる。視覚的連想(Visual Chain of Thought、Visual CoT)を備えたマルチモーダルモデルを訓練する際には、以下の2つの理由により挑戦が伴う:(1)既存のVisual CoTモデルの性能が劣悪であり、強化学習の実施を妨げる点、(2)高品質なVisual CoTのトレーニングデータが不足している点。本研究では、182,384サンプルを含む、多様性に富んだ大規模データセット「Zebra-CoT」を紹介する。このデータセットは、論理的に整合性のあるテキストと画像が交互に含まれた推論プロセスを含んでいる。我々は、スケッチや視覚的推論が特に自然な4つのタスクカテゴリに焦点を当てている。そのタスクは、幾何学、物理学、アルゴリズムなどの科学的問題;視覚検索やパズルなどの2D視覚的推論タスク;3Dマルチホップ推論、エンボディド推論およびロボット計画などの3D推論タスク;チェスなどの視覚論理問題および戦略的ゲームを含む。Zebra-CoTデータセットを用いてAnole-7Bモデルをファインチューニングした結果、我々のテストセットの精度が+12%向上し、標準的なVLMベンチマーク評価において最大で+13%のパフォーマンス向上が得られた。また、Bagel-7BモデルをZebra-CoTでファインチューニングすることで、高品質な視覚的推論チェーンを生成するモデルが得られ、これはZebra-CoTがマルチモーダル推論能力の開発において効果的であることを示している。本研究では、Visual CoTの開発と評価を支援するために、データセットおよびモデルをオープンソースとして公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ゼブラ・コット:インタリーブドビジョン言語推論のためのデータセット | 記事 | HyperAI超神経