Open-TransMind: Ein neuer Standardansatz und Benchmark für die 1. Foundation Model Challenge im Bereich des intelligenten Verkehrs

In den letzten Jahren hat die kontinuierliche Verbesserung der Rechenleistung und der tiefen Lernalgorithmen dazu geführt, dass Grundmodelle (Foundation Models) an Popularität gewinnen. Aufgrund ihrer leistungsstarken Fähigkeiten und hervorragenden Leistungsfähigkeit werden diese Technologien von einer wachsenden Zahl von Branchen übernommen und angewendet. In der intelligenten Verkehrsindustrie stehen künstliche Intelligenz vor folgenden typischen Herausforderungen: Few-shot-Lernen, schlechte Generalisierbarkeit sowie ein Mangel an multimodalen Techniken. Die Grundmodelltechnologie kann diese Probleme erheblich entschärfen. Um diese Herausforderungen anzugehen, haben wir die 1. Foundation Model Challenge ins Leben gerufen, mit dem Ziel, die Popularität der Grundmodelltechnologie in Verkehrsanwendungen zu steigern und die schnelle Entwicklung der intelligenten Verkehrsindustrie voranzutreiben. Die Challenge ist in zwei Tracks unterteilt: All-in-One und cross-modal Bildretrieval. Zudem stellen wir eine neue Baseline und Benchmark für beide Tracks vor, die wir Open-TransMind nennen. Nach unserem Wissen ist Open-TransMind das erste Open-Source-Verkehrsgrundmodell mit multimodalen und mehrfachaufgabenfähigen Fähigkeiten. Gleichzeitig erreicht Open-TransMind state-of-the-art-Leistungen auf Detektions-, Klassifikations- und Segmentierungsdatensätzen für Verkehrsszenarien. Der Quellcode ist unter https://github.com/Traffic-X/Open-TransMind verfügbar.