11日前
Open-TransMind:知能交通における1st Foundation Modelチャレンジのための新たなベースラインおよびベンチマーク
Yifeng Shi, Feng Lv, Xinliang Wang, Chunlong Xia, Shaojie Li, Shujie Yang, Teng Xi, Gang Zhang

要約
近年、計算能力の継続的な向上および深層学習アルゴリズムの進展に伴い、基礎モデル(Foundation Model)の注目度は著しく高まっている。その強力な汎用性と優れた性能から、この技術はますます多くの産業で採用・応用されつつある。特に知能交通システム分野では、以下のような典型的な課題が存在する:少量サンプル(Few-shot)状況での学習困難、一般化能力の低さ、およびマルチモーダル技術の不足。基礎モデル技術は、これらの課題を顕著に緩和する可能性を有している。こうした背景から、基礎モデル技術が交通シーンにおける普及を促進し、知能交通システム産業の急速な発展を推進することを目的として、「第1回基礎モデルチャレンジ」を企画・実施した。本チャレンジは、ワンストップ型(All-in-one)とマルチモーダル画像検索(Cross-modal Image Retrieval)の2つのトラックに分かれており、それぞれに対応する新たなベースラインおよびベンチマークとして「Open-TransMind」を提供している。当該モデルに関しては、現時点で知られている限り、マルチタスクかつマルチモーダルな能力を備えた最初のオープンソース交通分野向け基礎モデルである。さらに、Open-TransMindは、交通シーンにおける検出(detection)、分類(classification)、セグメンテーション(segmentation)の各データセットにおいて、最先端(state-of-the-art)の性能を達成している。本研究のソースコードは、https://github.com/Traffic-X/Open-TransMind にて公開されている。