Back to Headlines

GrassとInference、動画認識モデル「ClipTagger-12b」を発表 Claude 4を上回る精度で17倍安価

1ヶ月前

GrassとInference.netが共同開発した動画アノテーションモデル「ClipTagger-12b」が正式にリリースされた。このモデルは、世界最大級の実世界動画データセット(Grassが収集した10億本以上の動画)を基に、Inference.netのスケーラブルなAIインフラ上で訓練され、アクション、物体、ロゴを高精度で識別する能力を持つ。自動運転車や倉庫ロボティクスなど、AIの周辺認識能力が求められる分野での活用が期待される。 ベンチマークテストでは、ClipTagger-12bはClaude 4やGPT-4.1を上回る性能を示し、ROUGEやBLEUといったアノテーション評価指標で優位性を発揮。さらに、コストは最大17倍低く、実用的な導入が可能となっている。 Sam Hogan氏(Inference.net CEO)は、「適切なデータと優れたエンジニアリングがあれば、低コストで最先端のモデルを訓練できる」と強調。Andrej Radonjic氏(Wynd Labs CEO)も、「AIの未来はオープンなウェブを基盤に、それを学習可能な形に変えるインフラの構築にかかっている」と指摘。今回の共同開発は、大規模AIラボに限られていた高度なモデル開発を、専門チームによる協働で実現する可能性を示している。 ClipTagger-12bは現在、Inference.netのAPIを通じて利用可能。モデルの重みや関連リソースはHugging Faceにも公開されており、研究者向けには最大1万ドル相当のクレジットがInference.netのグランツプログラムで提供される。 Grassは、ユーザーが不要なインターネット接続を共有することで、AI学習用の実世界データ収集ネットワークを形成するアプリ。Inference.netは、中央集権型クラウドに依存せずに大規模AIモデルを実行・配信できる分散型コンピューティングネットワークを提供している。

Related Links