HyperAI超神経
Back to Headlines

Appleが構築する基盤モデルのデータ調達と人間の監督体制

9日前

Appleが開発した2つのファウンデーションモデルの構築において、データの収集と人間の監督が重要な要素として取り上げられている。同社はこれらのモデルをオープンソースにしない方針を示しており、サーバー用モデルのパラメータ数は明確に公表されていないが、端末用モデルは約30億パラメータとされている。 Appleのモデルはプライバシーを重視し、データの収集方法も独自のアプローチを採用している。競合企業が大量のインターネットデータを収集するのに対し、Appleはデータの質を重視する。そのデータソースは、出版社からライセンス取得したコンテンツ、オープンソースデータセット、そして社内で生成した高品質な合成データから構成されている。 また、Appleは独自のウェブクローラー「Applebot」を用いて、数百億ページに及ぶ高品質なコンテンツを収集。クローラーはロボット.txtを尊重し、ウェブ所有者がデータ使用を拒否できるようにしている。さらに、動的サイトのテキスト抽出にはヘッドレスレンダリング技術を活用し、LLMを用いてドメイン特化のドキュメントを処理するなど、高度なフィルタリング技術を採用している。 人間の監督もモデル構築の重要な一部。ファインチューニングや人間からのフィードバックを用いた強化学習(RLHF)を経て、モデルがユーザーのニーズに合致するよう調整される。人間は質の高い例を提供し、合成データと組み合わせて効率的に学習を進める。また、AIエージェントの使用では、リアルタイムで対話の修正を行うことで、多段階のデータセットを作成する。 Appleのアプローチは技術的だけでなく、哲学的なものでもある。ユーザーのプライベートデータを用いないことでプライバシー問題に直接対応し、人間の介入によってバイアスや誤りを減らす。これにより、効率的で競争力のあるモデルが実現されており、今後のAI開発における倫理的基準となる可能性もある。

Related Links