MoCaE:キャリブレーションされたエキスパートの混合により、オブジェクト検出が著しく改善される

多数の既存の予測器の強みを組み合わせることで、個々のコンポーネントを上回る性能を発揮する「エキスパートの混合(Mixture of Experts)」を構築することは、新たなアーキテクチャの開発やモデルの再学習なしに性能を向上させる有効な手法である。しかし、驚くべきことに、Deep Ensemblesと同様の方法でエキスパートの物体検出器を単純に組み合わせた場合、しばしば性能が低下することがわかった。本研究では、この問題の主な原因が、エキスパートの予測結果がその実際の性能と一致していないこと、すなわち「誤校正(miscalibration)」にあることを特定した。その結果、最も自信を持つ検出器が最終予測を支配し、他のエキスパートの予測を適切に活用できなくなる。この問題に対処するため、エキスパートの混合を構築する際、各エキスパートの個別性能を反映した方法で予測を組み合わせることを提案する。この目的を達成するために、予測の校正(calibration)を事前に実施し、その後フィルタリングと精緻化を行う。このアプローチを「校正済みエキスパートの混合(Mixture of Calibrated Experts)」と呼ぶ。本手法は、異なる種類の検出器を用いて5つの異なる検出タスクにおいて広範な実験を通じて検証され、以下の効果を示した:(i)COCOにおける物体検出器およびLVISにおけるインスタンスセグメンテーション手法の性能を最大で約2.5 AP向上;(ii)COCO test-devにおいて65.1 AP、DOTAにおいて82.62 AP₅₀という最先端の性能を達成;(iii)近年の検出タスク、特にオープンボリューム物体検出(Open Vocabulary Object Detection)において、単一モデルを常に上回る性能を発揮。