Falcon Perception
Das Technology Innovation Institute (TII) in Abu Dhabi hat zwei neue KI-Modelle vorgestellt, die das bestehende Paradigma der getrennten Bild- und Textverarbeitung hinterfragen: Falcon Perception und Falcon OCR. Im Gegensatz zu herkömmlichen Architekturen, die oft aus starren Pipeline-Komponenten bestehen, setzen beide Modelle auf einen einzigen, frühen Fusions-Transformer. Dieses Design verarbeitet Bildpatches und Texttokens in einem gemeinsamen Parameterbereich von der ersten Schicht an, um eine effizientere und skalierbare Wahrnehmung zu ermöglichen. Falcon Perception ist ein Modell mit 0,6 Milliarden Parametern, das für das off-vocabuläre Grounding und die Segmentierung aus natürlichen Sprachanweisungen konzipiert wurde. Statt separater Vision-Backbones nutzt das System ein hybrides Aufmerksamkeitsmuster, das Bilder bidirektional und Text autoregressiv verarbeitet. Die Vorhersage erfolgt in einer strukturierten Kettenweise von Grob nach Fein: Zuerst werden Koordinaten bestimmt, dann die Größe und schließlich die Segmentierungsmaske durch ein Dot-Produkt mit hochaufgelösten Bildmerkmalen. Auf dem benchmark SA-Co erreichte das Modell eine Macro-F1-Score von 68,0 und übertrug damit das etablierte SAM 3 Modell mit 62,3 Punkten. Besonders signifikante Verbesserungen zeigten sich bei attributreichen Objekten, Lebensmitteln und Sportgeräten. Eine neue Evaluationsmethode namens PBench, die von den Forschern vorgestellt wurde, analysiert die Leistung detailliert nach Fähigkeitsstufen. Dabei zeigt sich, dass Falcon Perception vor allem bei komplexen Aufgaben wie optischer Zeichenerkennung zur Unterscheidung von Objekten, räumlichen Einschränkungen und relationalen Interaktionen deutlich besser abschneidet als vergleichbare Modelle. Während das Modell bei der Kalibrierung der Objektpräsenz noch Verbesserungspotenzial aufweist, beweist es seine Stärken in Szenen mit hoher Objektdichte, in denen herkömmliche Decoder oft an ihre Grenzen stoßen. Parallel dazu wurde Falcon OCR veröffentlicht, ein kompakteres Modell mit 0,3 Milliarden Parametern, das speziell für die Dokumentenanalyse trainiert wurde. Anders als bei Perception wurde dieses Modell von Grund auf neu trainiert, da feinkörnige Merkmalserkennungen für Text anders sind als objektbasierte Segmentierung. Trotz seiner geringen Größe erzielt Falcon OCR herausragende Ergebnisse: 80,3 Punkte auf dem olmOCR-Benchmark und 88,6 auf OmniDocBench. Es übertrifft dabei in Aufgaben wie der Extraktion aus mehrspaltigen Dokumenten und Tabellen deutlich größere Modelle. Durch seine kompakte Größe ermöglicht das Modell zudem eine hohe Durchsatzrate, was es ideal für die Massendigitalisierung von Millionen von Seiten macht. Beide Projekte demonstrieren die Effektivität einer reduzierten Architektur, die auf großen Datensätzen und sorgfältigem Training setzt, statt auf komplexe Module. Die Forscher bieten die Modelle mit einer offenen Inferenz-Infrastruktur auf PyTorch Basis an, die skalierbare Inferenz unterstützt. Mit dieser Veröffentlichung hoffen sie, die Forschung zu vereinfachten, leistungsfähigen Single-Backbone-Modellen für visuelle Wahrnehmung weiter voranzutreiben.
