17日前

ファウンデーションモデルはあなたのデータを整理できるか?

Avanika Narayan, Ines Chami, Laurel Orr, Simran Arora, Christopher Ré
ファウンデーションモデルはあなたのデータを整理できるか?
要約

基礎モデル(Foundation Models, FMs)とは、大規模なデータコーパス上で学習されたモデルであり、非常に大規模な規模において、タスク固有の微調整(fine-tuning)を一切行わずに新たなタスクに一般化できる特性を持つ。これらのモデルの規模が拡大し続ける中で、言語および画像タスクにおける性能の限界を不断に押し広げる技術的革新が続いている。本論文では、これまで十分に検討されてこなかったFMsの領域、すなわちデータクリーニングや統合といった古典的なデータ処理タスクに焦点を当てる。概念実証として、5つのデータクリーニングおよび統合タスクをプロンプト(prompting)タスクとして定式化し、FMsの性能を評価した。その結果、これらのモデルは、データ処理タスクに特化して学習されていないにもかかわらず、データクリーニングおよび統合タスクにおいて汎化能力を発揮し、既存の最良性能(SoTA)を達成することが明らかになった。さらに、本研究では、プライベートデータやドメイン特有のデータに対する課題、および非専門家がデータ管理システムにアクセスしやすくなる可能性といった、新たな研究上の課題と機会を同定した。本研究で使用したコードおよび実験結果は、以下のURLで公開されている:https://github.com/HazyResearch/fm_data_tasks。