「オープンソースによって、世界中のより多くの人々が AI の開発から恩恵と機会を得られるようになります。」 ザッカーバーグ氏はかつて、Llama 3.1 がリリースされたときに、オープンソースの重要性を説明する長い記事を書きました。近年の AI の急速な発展に伴い、オープンソースの人気が高まり続けていることは事実です。オープンソース コミュニティへの開発者の貢献は、その開発者個人の技術的態度を表すだけでなく、探索における成果をある程度証明するものでもあります。最先端のテクノロジー。
この過程で、2 つの主要なオープンソース プロジェクト ホスティング プラットフォーム、GitHub と Hugging Face も急速な成長を達成しました。
GitHub は発表の中で、2023 年にプラットフォーム ユーザーの数が 1 億人に達し、世界最大のオープン ソース コード ホスティング プラットフォームになると発表しました。。GitHub が 0 から 1 億になるまでに 15 年かかりました。ハグフェイスは2か月前、ユーザー数が500万人に達したと発表した。この飛躍には、Hugging Face が 8 年かかりました。
現在、Hugging Face は、NLP、コンピューター ビジョン、音声、時系列、生物学、強化学習などの分野をカバーする 107 万以上の事前トレーニング済みモデルと 23 万 4,000 のデータセットを共有しており、「機械学習の分野における GitHub」として知られています。 「」。
新星として、Hugging Face の総ユーザー数は GitHub ほど多くありませんが、大規模モデルのトレンドに乗り、同じく豊富なオープンソース リソースに依存して近年勢いを増しています。必然的にネチズンの間では憶測が生まれます。AI の開発が加速する中、Hugging Face は徐々に GitHub に取って代わり、開発者にとってより人気のある場所になるのでしょうか?オープンソース プロジェクトのホスティング プラットフォームとして、より早くスタートし、強力なユーザー ベースを持っている GitHub がどのように引き継がれるのでしょうか?
終了したばかりの GitHub Universe 2024 で GitHub CEO の Thomas Dohmke 氏が発表した一連の新開発が、この質問に答えてくれるかもしれません—GitHub モデルが正式にオープンしました、OpenAI o1、Meta Llama 3.2、Microsoft Phi 3.5 などの新しいモデルが追加されました。
周知のとおり、Hugging Face は大規模なオープンソース モデルの世界的な配布センターとなっています。さらに、そのスペース セクションによって提供されるすぐに使用できるエクスペリエンスは、開発者に大きな利便性をもたらします。具体的には、2020 年の初めに、Hugging Face は Model Hub を立ち上げました。これはオープンな AI モデル共有プラットフォームです。ユーザーはさまざまな NLP モデルをアップロード、共有、ダウンロードできるため、AI モデルの再利用と拡張が大幅に促進され、徐々に AI 開発者にとっての「ML モデルの GitHub」になりつつあります。現在、プラットフォーム上のオープンソース モデルの数は 1,076,375 に達しています (記事執筆時点)。
対照的に、GitHub はオープンソース AI モデルの統合においてやや「遅れ」ており、GitHub モデル セクションを立ち上げたのは今年 8 月のことでした。当時の位置づけは、開発作業を簡素化し、AI アプリケーション開発の敷居を下げ、すべての開発者が適切なツールとトレーニングを受けて AI エンジニアになれるようにすることでした。
3 か月後の現在、GitHub モデルが正式にオープンされ、開発者はプレイグラウンドや API などを通じて AI モデルにアクセスできるようになりました。
まずは新機能です。
* 簡素化された展開プロセス - Azure 実稼働キーを使用すると、アプリケーションを開発環境から実稼働環境に迅速に移行できます。
* プロンプト、パラメータ、メッセージをリアルタイムで保存するためのモデル プリセットを追加しました。
* 運用シナリオでマルチモーダル対応モデルのイメージ サポートを提供するマルチモーダル サポート機能を追加しました。
* 同じプロンプトに対する 2 つのモデルの出力をリアルタイムで比較できる並列比較機能が追加されました。
2 つ目はモデルの拡張で、OpenAI o1、Meta Llama 3.2、Microsoft Phi 3.5、Cohere Command R Series 08-2024、および A21 Jamba 1.5 を追加します。オリジナルの Llama 3.1、GPT-4o、Phi 3、Mistral Large 2 などのモデルを含め、開発者が試せる合計 35 のモデルが現在含まれています。同様に、GitHub はユーザーにグライド パスも提供し、ユーザーは Codespaces および VS Code 開発環境で開発できます。
要約すると、Hugging Face のモデル ハブと GitHub モデルはどちらも、開発者に最先端のオープン ソース モデルの迅速なエクスペリエンス プラットフォームを提供します。ただし、GitHub は現在、テクノロジー大手のオープンソースの基本モデルをよりターゲットにしており、プラットフォーム上でオープンソース化されている他の高品質モデルはまだ考慮されていません。一方、Hugging Face は、モデルの数とカバーするアプリケーション分野の点で GitHub よりもはるかに優れています。
研究者の研究の進歩をさらに加速するために、Hugging Face と arXiv はプラットフォームの障壁を「打ち破る」 arXiv ページの「コード、データ、メディア」タブにある Hugging Face ボタンをオンにしている限り、関連する Hugging Face の論文、モデル、データ セットに直接アクセスできます。ワンクリック。この動きにより、プラットフォーム上のユーザー数の増加がさらに促進される可能性があります。
オープンソース コミュニティの「パスファインダー」として、GitHub のユーザー ベースが Hugging Face と比較して依然として有利であることは疑いの余地がありません。今回の GitHub Universe 2024 では、現在 1 億人を超えるユーザーがいることを明らかにしました。特に今年は、世界中の開発者が GitHub 上のオープンソースおよびパブリック リポジトリに 10 億近くの貢献を行っています。
2つのプラットフォームの開発の歴史を振り返るのもストーリーが満載です。
GitHub は 2008 年に 4 人のプログラマー、Tom Preston-Werner、Chris Wanstrath、PJ Hyett、Scott Chacon によって設立されました。創業者が生粋のプログラマーで会社経営の経験がなかったためか、2016年にGitHubにプラットフォーム運営の混乱を訴える多くの人々の連名による告訴状が届いたことがある。 2 年後、Microsoft は GitHub を 75 億米ドルで買収すると発表し、追加のリソースをもたらし、戦略的方向性を決定しました。それ以来、GitHub は着実な発展段階に入りました。
一方、ハグフェイスも勢いを増している。
2016年、クレマン・ドゥラングはジュリアン・ショーモン、トーマス・ウルフとともにハギング・フェイスを設立しました。同社は当初、会話ロボットを開発していましたが、当時同様の方向に取り組んでいた多くの新興企業と同様に、成功することはありませんでした。 Microsoft が GitHub を買収してから 1 年目となる 2019 年に、Hugging Face は好転の到来を告げました。
チャットボットの NLP (自然言語処理) 機能をトレーニングするために、Hugging Face は GitHub で Transformers ライブラリをオープンソース化しました。このオープンソース プロジェクトは機械学習コミュニティで急速に人気を博し、GitHub の歴史の中で最も急速に成長する AI プロジェクトになったと言えます。
2020 年、Hugging Face は、オープン AI モデル共有プラットフォームである Model Hub と、大規模なオープンソース データセット管理ツールである Datasets ライブラリを立ち上げました。 2021 年に、Hugging Face は Spaces をリリースし、ユーザーが Streamlit や Gradio などのツールを通じて AI モデルを展開および表示できるようにしました。
現在、Hugging Face は最も急速に拡大しているコミュニティであり、最も広く使用されている機械学習プラットフォームとなっています。当時の同社のCEOであるクレメント・デラング氏はかつてインタビューで、AIはソフトウェアの新しいパラダイム、すなわち「ソフトウェア2.0」であると述べており、この見解はAI分野の著名な研究者であるアンドレイ・カルパシー氏も認めていた。
彼はかつてこう書いた、従来の手動プログラミングは「ソフトウェア 1.0」に属し、GitHub は非常に成功した「ソフトウェア 1.0」コード センターです。「ソフトウェア 2.0」時代では、プログラミングにニューラル ネットワークが使用され、GitHub のような強力なプラットフォームが登場します。Hugging Face は、「Software 2.0」時代の GitHub になることを目指しています。
1+1>2の効果はGitHubで検証されています。 Microsoft に買収された後、多くの開発者は、GitHub がオープンソースであり続けられるかどうかについて懸念を表明しました。しかしそうではなく、GitHub は引き続き開発者中心のプラットフォームであることに重点を置いています。
関連メディアの報道によると、Microsoft が 2018 年に GitHub を買収したとき、GitHub の年間経常収益 (ARR) はわずか 2 億~3 億米ドルに過ぎず、2022 年には GitHub の ARR が 10 億米ドルに増加し、2023 年の GitHub の業界の ARR 予測はそれに達するとのことです。 140億ドルだが、正確な数字は公式には明らかにされていない。
現在、GitHub は比較的完全な収益モデルを形成しており、収益を得るには主に 3 つの方法があります。サブスクリプション プランと有料サービス、エンタープライズ サービスとマーケット サービス。このうちエンタープライズ サービスが GitHub の最大の収益源です。
Hugging Face の収益モデルは GitHub に似ており、有料アイテムも次の 3 種類があります。有料メンバーシップ、データ ホスティング、エンタープライズ サービス。
ただし、Hugging Face は GitHub のような「大きな木に支えられている」わけではなく、主に外部投資に依存しているため、資本からの利益圧力に直面する可能性があります。 2021 年以前、Hugging Face には収入がなく、コミュニティの通常の運営を維持するために投資家の資金を「燃やす」ことに完全に依存しています。ハギングフェイスが最初に商業化を検討し始めて収益段階に入ったのは、2021 年になってからでした。 『Forbes』によると、2021年の同社の収益は1,000万米ドルで、現在の年間収益は3,000万〜5,000万米ドルの間です。
今年7月、HuggingFaceの共同創設者兼CEOのClement Delangue氏はソーシャルネットワーク上でプラットフォームの収益性を発表し、チームメンバーの数が220人に達したことを祝った。
昨年8月23日、Hugging Faceは2億3,500万米ドル(現在約16億7,500万人民元)のシリーズD資金調達を完了し、評価額は45億米ドル(現在約320億8,800万人民元)となった。投資家にはGoogle、Amazon、Nvidia、Salesforce、AMD、Intel、IBM、Qualcommといったスター揃いのリストと言えるが、これは業界がHugging Faceの発展可能性をある程度認識していることの表れでもある。
GitHub が盛大な年次イベントを開催した一方で、Hugging Face も怠けていたわけではなく、ソーシャル プラットフォーム上で「Enterprise Hugging Face ハブ」が 10 月 30 日 (太平洋夏時間) に開催されると発表したことは注目に値します。カンファレンスですが、GitHub より後です。これも人々を驚かせますが、今度はハグフェイスがどのように反応するのでしょうか?
参考文献:
1.https://originality.ai/blog/huggingface-statistics
2.https://karpathy.medium.com/software-2-0-a64152b37c35
3.https://mp.weixin.qq.com/s/0JNZPBCmLvRYHn4tcOTIrA
4.https://mp.weixin.qq.com/s/0JNZPBCmLvRYHn4tcOTIrA
5.https://www.shidaox.com/observation/440.html
6.https://github.blog/news-insights/octoverse/octoverse-2024/