RLAIF-V-Dataset 大規模なマルチモーダル嗜好データ セット

日期

7 个月前

大小

11.77 GB

机构

OpenBMB

发布地址

huggingface.co

RLAIF-V データセットは、AI によって生成されたマルチモーダルな嗜好データセットで、さまざまなタスクとドメインをカバーします。このデータセットには、マルチモーダル大規模言語モデル (MLLM) のトレーニングと評価のための 44,757 を超える高品質のアライメントが含まれています。 RLAIF-V データセットは、オープンソースの大規模モデルを使用してモデル応答の混乱を解消し、さまざまな MLLM の錯覚現象を軽減する新しいアプローチを通じて高品質のフィードバック データを提供します。

さらに、RLAIF-V データセットは、最初のエンドサイド GPT-4V レベル MLLM17 を表す MiniCPM-Llama3-V 2.5 モデルのトレーニングに使用されます。 RLAIF-V プロジェクトは、研究コミュニティやさらなる研究で使用できるように、コード、重み (7B、12B)、およびデータをオープンソース化しました。

RLAIF-V データセットの主な特徴は次のとおりです。

  1. 高品質のフィードバックデータ: さまざまな MLLM の幻覚を効果的に軽減するために使用されるデータセット。
  2. オープンソース: データセットは完全にオープンソースであるため、研究者は自由にアクセスして使用できます。
  3. マルチタスクとマルチドメイン: このデータセットは幅広いタスクとドメインをカバーしており、多様な嗜好データを提供します。

RLAIF-V データセットのライセンスは CC BY NC 4.0 であり、非営利使用のみが許可されており、このデータセットを使用してトレーニングされたモデルは研究目的以外では使用しないでください。

RLAIF-V-Dataset.torrent

做种 2

下载中 1

已完成 24

总下载 71

  • RLAIF-V-Dataset/
    • README.md
      1.86 KB
    • README.txt
      3.72 KB
      • data/
        • RLAIF-V-Dataset.zip
          11.77 GB