HyperAIHyperAI

Command Palette

Search for a command to run...

AI学習データ不足に向けた新技術:Google DeepMindが「生成型データ精製」で未利用データを活用

人工知能(AI)の学習に必要なデータが急速に枯渇する懸念が高まっている。Google DeepMindの研究チームは、この問題の解決策として「生成型データ精製(Generative Data Refinement、GDR)」という新技術を提案した。この方法は、Web上に存在する大量のテキストデータのうち、個人情報を含む不適切な部分をAIが自動で修正・除去し、安全に再利用可能なデータに変換する仕組みだ。 現在のAIモデルは、インターネット上の文章やコードなどを大量に収集して学習するが、その中には個人識別情報(例:社会保障番号)や誤った情報が混在している。そのため、一部のデータに問題があると、全体を捨てるケースが多く、有用な情報が無駄に捨てられている。GDRは、こうした「汚染されたデータ」を、事前に学習された生成型AIが再構成し、不適切な部分を置き換えまたは削除することで、安全かつ有用なデータへと「精製」する。たとえば、CEOの名前や旧い情報が含まれる文書でも、不要な部分だけを処理し、残りの内容を保存できる。 研究チームは、100万行以上のコードデータを用いて実験。人間による手動ラベル付けと比較して、GDRの精度と効率が圧倒的に優れていると結論づけた。また、人工的に生成されたデータ(合成データ)と比べても、GDRはモデルの性能低下や「モデル崩壊」のリスクが少なく、より高品質な学習データを生み出すと評価している。 この研究は1年以上前に完成しており、今年初めて公開された。Google DeepMindは実用化の有無についてコメントを控えているが、研究者らは、今後、動画や音声といったマルチモーダルデータにもGDRを応用できる可能性を示唆している。特に動画は毎日数百万時間のデータが生成され続けているため、新たなデータ源としての価値が極めて高い。 AIの学習データが2030年代前半に枯渇するとの予測がある中、GDRは、限られたデータを最大限に活用するための画期的な手段として注目されている。

関連リンク

AI学習データ不足に向けた新技術:Google DeepMindが「生成型データ精製」で未利用データを活用 | 人気の記事 | HyperAI超神経