概要

分布のシフトに対するロバスト性の向上および不確実性推定に関する手法開発については、顕著な研究が行われてきた。一方で、これらのアプローチを評価するための標準的なデータセットやベンチマークの開発には、限定的な研究しか行われていない。さらに、不確実性推定およびロバスト性に関する大多数の研究は、小規模な回帰問題や画像分類タスクに基づいて新たな技術を提案している。しかし、実用的に重要な多くのタスクは、表形式データ、音声、テキスト、センサデータなど、異なるモダリティを扱っており、これらは回帰や離散的・連続的な構造化予測において、大きな課題を伴う。したがって、現在の分野の状況を踏まえると、分布のシフトに影響を受けるさまざまなモダリティにわたる大規模な標準化データセットの構築が不可欠である。このようなデータセットにより、近年急速に開発が進んでいる不確実性評価手法の有効性を意味ある形で評価することが可能となり、評価基準や最先端のベースラインの検証も促進される。本研究では、不確実性推定の評価および分布のシフトに対するロバスト性を評価するための「Shifts Dataset」を提案する。このデータセットは産業界のソースおよびサービスから収集されたもので、3つのタスクから構成されており、それぞれが特定のデータモダリティに対応している：表形式の天気予測、機械翻訳、自律走行車（SDC）の車両運動予測。これらのモダリティおよびタスクは、現実世界における「野生の」分布のシフトに影響を受けており、不確実性推定の観点からも興味深い課題を提示している。本研究では、データセットの詳細および各タスクに対するベースライン結果を提示する。

ソースPDF