FETA:エキスパートタスク応用向けの基礎モデルの専門化に向けて

基礎モデル(Foundation Models, FMs)は、ゼロショット学習、高忠実度のデータ生成、ドメイン外一般化といった、かつてない能力を示している。しかし、本論文で示すように、FMsは、巨大なデータセットを用いた事前学習において未観測または長尾部分に属するデータ(例:言語クエリから自動車マニュアルの技術図解を検索するなど)を扱う専門的タスクにおいて、出荷時(out-of-the-box)の性能が依然として低い。このことから、実世界の実用応用において最も頻出すると考えられるこうした専門的タスクについて、FMsの明示的な評価とファインチューニングの必要性が強く示唆される。本論文では、FMsに技術文書の理解能力を学習させるというタスクを軸に、対応する言語記述と図解を一致させる能力を習得させるというアプローチに基づき、世界初のFETAベンチマークを提案する。FETAベンチマークは、公開されている自動車マニュアルや販売カタログパンフレットにおけるテキストから画像への検索(text-to-image retrieval)および画像からテキストへの検索(image-to-text retrieval)を対象としている。FETAは、完全自動的なアノテーション抽出プロセスを備えており(コードは採択後に公開予定)、今後のより多様な文書タイプや応用分野への拡張が容易となる。本研究で開発した自動アノテーション手法により、人間による手動アノテーションに基づく評価指標と一貫性を持つ自動評価指標が実現された(併せて公開)。本研究では、代表的なFMsに対する複数のベースラインと包括的な分析を提供し、FMコミュニティにとって非常に価値ある複数の知見を明らかにした。これらは、従来の共通オブジェクトに焦点を当てた標準ベンチマークが「見過ごしている」実用的な専門的タスクにおけるFMsの実世界応用への道を開くものである。