
要約
多モーダル大規模言語モデル(Multimodal Large Language Models, MLLMs)は最近、大きな注目を集めています。ChatGPT-4VやGeminiなどの強力な商用モデルと、LLaVAなどのオープンソースモデルが、本質的に汎用的なモデルとして、コンピュータビジョンを含む幅広いタスクに適用されています。これらのニューラルネットワークは、非常に強い一般的な知識と推論能力を備えており、特定のトレーニングを受けたことのないタスクでも動作することが証明されています。私たちは、最新かつ最も強力なMLLMであるShareGPT4V、ChatGPT、LLaVA-Nextを、当社の最先端の専門モデルMiVOLOを使用して年齢と性別の推定という専門的なタスクで比較しました。また、MiVOLOを更新し、この記事で詳細と新しい評価指標を提供しています。この比較から興味深い結果と参加したモデルの長所と短所に関する洞察が得られました。さらに、この特定の課題で最先端の結果を達成することを目指し、ShareGPT4Vモデルを微調整するさまざまな方法を試みました。ただし、このようなモデルはMiVOLOのような専門モデルに比べて非常に高コストであるため実際の生産環境では実用的ではありませんが、データアノテーションなどの一部のタスクでは非常に有用である可能性があります。