6ヶ月前

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

概要

昨年、マルチモーダルアーキテクチャがAIベースのアプローチおよびソリューションに革命をもたらし、大規模言語モデル（LLM）の能力を拡張した。本研究では、事前学習済みLLMと視覚モダリティ用アダプタを組み合わせた「OmniFusionモデル」を提案する。テキストと視覚データの効果的な統合を実現するため、複数のアーキテクチャ設計原則を評価・比較した。具体的には、MLPおよびTransformerアダプタ、さまざまなCLIP ViTベースのエンコーダ（SigLIP、InternVITなど）、それらの融合手法、画像エンコーディング方法（全体画像エンコーディングまたはタイル分割エンコーディング）、および2種類の7B規模のLLM（独自開発モデルとオープンソースのMistral）を検討した。8つの視覚言語ベンチマークにおける実験結果から、OmniFusionの最適設定は、オープンソースのLLaVA系ソリューション（VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU）と比較して、さまざまなVQAタスクにおいて最高スコアを達成した。また、家事支援、観光案内、文化理解、医療診断、手書き・スキャンされた数式認識など、多様な分野において、OmniFusionが極めて詳細な回答を提供できる状況を提示した。Mistralを基盤とするOmniFusionモデルは、重みパラメータ、学習スクリプト、推論スクリプトを含むオープンソースとして公開されており、GitHubにて入手可能である（https://github.com/AIRI-Institute/OmniFusion）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

概要

昨年、マルチモーダルアーキテクチャがAIベースのアプローチおよびソリューションに革命をもたらし、大規模言語モデル（LLM）の能力を拡張した。本研究では、事前学習済みLLMと視覚モダリティ用アダプタを組み合わせた「OmniFusionモデル」を提案する。テキストと視覚データの効果的な統合を実現するため、複数のアーキテクチャ設計原則を評価・比較した。具体的には、MLPおよびTransformerアダプタ、さまざまなCLIP ViTベースのエンコーダ（SigLIP、InternVITなど）、それらの融合手法、画像エンコーディング方法（全体画像エンコーディングまたはタイル分割エンコーディング）、および2種類の7B規模のLLM（独自開発モデルとオープンソースのMistral）を検討した。8つの視覚言語ベンチマークにおける実験結果から、OmniFusionの最適設定は、オープンソースのLLaVA系ソリューション（VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU）と比較して、さまざまなVQAタスクにおいて最高スコアを達成した。また、家事支援、観光案内、文化理解、医療診断、手書き・スキャンされた数式認識など、多様な分野において、OmniFusionが極めて詳細な回答を提供できる状況を提示した。Mistralを基盤とするOmniFusionモデルは、重みパラメータ、学習スクリプト、推論スクリプトを含むオープンソースとして公開されており、GitHubにて入手可能である（https://github.com/AIRI-Institute/OmniFusion）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

オムニフュージョン技術報告書 | 記事 | HyperAI超神経