8ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

概要

多モーダル大規模言語モデル（Multimodal Large Language Models, MLLMs）は最近、大きな注目を集めています。ChatGPT-4VやGeminiなどの強力な商用モデルと、LLaVAなどのオープンソースモデルが、本質的に汎用的なモデルとして、コンピュータビジョンを含む幅広いタスクに適用されています。これらのニューラルネットワークは、非常に強い一般的な知識と推論能力を備えており、特定のトレーニングを受けたことのないタスクでも動作することが証明されています。私たちは、最新かつ最も強力なMLLMであるShareGPT4V、ChatGPT、LLaVA-Nextを、当社の最先端の専門モデルMiVOLOを使用して年齢と性別の推定という専門的なタスクで比較しました。また、MiVOLOを更新し、この記事で詳細と新しい評価指標を提供しています。この比較から興味深い結果と参加したモデルの長所と短所に関する洞察が得られました。さらに、この特定の課題で最先端の結果を達成することを目指し、ShareGPT4Vモデルを微調整するさまざまな方法を試みました。ただし、このようなモデルはMiVOLOのような専門モデルに比べて非常に高コストであるため実際の生産環境では実用的ではありませんが、データアノテーションなどの一部のタスクでは非常に有用である可能性があります。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

概要

多モーダル大規模言語モデル（Multimodal Large Language Models, MLLMs）は最近、大きな注目を集めています。ChatGPT-4VやGeminiなどの強力な商用モデルと、LLaVAなどのオープンソースモデルが、本質的に汎用的なモデルとして、コンピュータビジョンを含む幅広いタスクに適用されています。これらのニューラルネットワークは、非常に強い一般的な知識と推論能力を備えており、特定のトレーニングを受けたことのないタスクでも動作することが証明されています。私たちは、最新かつ最も強力なMLLMであるShareGPT4V、ChatGPT、LLaVA-Nextを、当社の最先端の専門モデルMiVOLOを使用して年齢と性別の推定という専門的なタスクで比較しました。また、MiVOLOを更新し、この記事で詳細と新しい評価指標を提供しています。この比較から興味深い結果と参加したモデルの長所と短所に関する洞察が得られました。さらに、この特定の課題で最先端の結果を達成することを目指し、ShareGPT4Vモデルを微調整するさまざまな方法を試みました。ただし、このようなモデルはMiVOLOのような専門モデルに比べて非常に高コストであるため実際の生産環境では実用的ではありませんが、データアノテーションなどの一部のタスクでは非常に有用である可能性があります。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

専門化を超えて：MLLMの年齢と性別推定能力の評価 | 記事 | HyperAI超神経