HyperAIHyperAI
vor 17 Tagen

ObjectNet: Ein großes, Bias-kontrolliertes Datensatz für die Herausforderung der Grenzen von Objekterkennungsmodellen

{Josh Tenenbaum, Christopher Wang, David Mayo, Dan Gutfreund, William Luo, Julian Alverio, Boris Katz, Andrei Barbu}
ObjectNet: Ein großes, Bias-kontrolliertes Datensatz für die Herausforderung der Grenzen von Objekterkennungsmodellen
Abstract

Wir sammeln eine große, realweltbasierte Testmenge, ObjectNet, für die Objekterkennung, die kontrollierte Bedingungen enthält, bei denen Hintergründe, Rotationen und Aufnahmeperspektiven der Objekte zufällig variiert werden. Die meisten wissenschaftlichen Experimente verfügen über Kontrollen und entfernen Störfaktoren aus den Daten, um sicherzustellen, dass die Probanden eine Aufgabe nicht durch Ausnutzung trivialer Korrelationen in den Daten lösen können. Historisch gesehen fehlten solche Kontrollen in großen Datensätzen für maschinelles Lernen und Computer Vision. Dies führte dazu, dass Modelle für neue Datensätze neu abgestimmt werden mussten und auf Datensätzen besser abschnitten als in realen Anwendungen. Bei der Bewertung auf ObjectNet zeigen Objektdetektoren eine Leistungsabnahme um 40–45 % im Vergleich zu ihren Ergebnissen auf anderen Benchmarks, was auf die Kontrollen gegen Verzerrungen zurückzuführen ist. Die Kontrollen machen ObjectNet robust gegenüber Nachkalibrierung, wobei lediglich geringe Leistungssteigerungen auftreten. Wir entwickeln eine hochautomatisierte Plattform, die es ermöglicht, Datensätze mit Kontrollen durch Crowdsourcing der Bildaufnahme und Annotation zu erheben. ObjectNet hat die gleiche Größe wie der ImageNet-Testset (50.000 Bilder) und wird bewusst nicht mit einem Trainingsset geliefert, um Generalisierung zu fördern. Der Datensatz ist sowohl einfacher als ImageNet (Objekte sind größtenteils zentriert und nicht verdeckt) als auch schwieriger (aufgrund der Kontrollen). Obwohl wir uns hier auf die Objekterkennung konzentrieren, können Daten mit Kontrollen im gesamten Bereich des maschinellen Lernens mithilfe automatisierter Werkzeuge großflächig erfasst werden, um Datensätze zu generieren, die Modelle auf neue Weise herausfordern und Forschern wertvolle Rückmeldungen liefern. Diese Arbeit eröffnet neue Forschungspfade für generalisierbare, robuste und menschenähnlichere Computer Vision-Systeme sowie für die Erstellung von Datensätzen, deren Ergebnisse prädiktiv für die Leistung in der realen Welt sind.