HyperAIHyperAI

Command Palette

Search for a command to run...

LLaMA-3で数十億のウェブ画像を再キャプション化するとどうなるか?

概要

Webから収集された画像-テキストペアは本質的にノイズを含んでいます。これまでの研究では、これらのペアのテキスト記述を意味的に整合させ、豊かにすることで、視覚言語タスク(特にテキストから画像を生成するタスク)におけるモデルの学習効果が顕著に向上することを示しています。しかし、この分野における大規模な調査は依然として主に閉鎖型のものに留まっています。本論文では、GPT-4レベルの大規模言語モデル(LLM)であるオープンソースで強力なLLaMA-3を活用し、こうしたコミュニティの取り組みを補完することを目的としています。我々の再記述パイプラインは単純です。まず、LLaMA-3-8Bを搭載したLLaVA-1.5をファインチューニングし、そのモデルを用いてDataComp-1Bデータセットから13億枚の画像を再記述します。実証実験の結果、この強化されたデータセット「Recap-DataComp-1B」が、高度な視覚言語モデルの学習に大きな利点をもたらすことが確認されました。分類モデル(例:CLIP)では、マルチモーダル検索タスクにおけるゼロショット性能が向上することが観察されました。生成モデル(例:テキストから画像を生成するDiffusion Transformer)においては、ユーザーのテキスト指示との整合性が著しく向上し、特に複雑なクエリに対しても正確に応答する能力が顕著に改善されました。本プロジェクトのページは以下の通りです:https://www.haqtu.me/Recap-Datacomp-1B/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LLaMA-3で数十億のウェブ画像を再キャプション化するとどうなるか? | 記事 | HyperAI超神経