Falcon Perception lance une nouvelle solution de vision
L'Institut de l'Innovation Technologique (TII) d'Abou Dabi a présenté Falcon Perception, un modèle de vision par ordinateur innovant de 0,6 milliard de paramètres, ainsi que son modèle complémentaire Falcon OCR de 0,3 milliard de paramètres. Ces systèmes représentent une rupture par rapport aux architectures traditionnelles qui séparent l'encodage visuel du traitement du langage. Contrairement aux pipelines modulaires complexes, Falcon Perception utilise un seul transformateur à fusion précoce pour traiter simultanément les patches d'images et le texte dans une séquence unifiée. L'architecture repose sur un masque d'attention hybride qui permet au modèle de fonctionner comme un encodage bidirectionnel pour les images tout en gérant une génération autoregressive pour les tâches linguistiques. L'interface de sortie est structurée en une séquence logique appelée Chaîne de Perception : le modèle prédit d'abord les coordonnées, puis la taille, et enfin génère le masque de segmentation via une opération de produit scalaire avec les caractéristiques de l'image. Cette approche réduit l'ambiguïté spatiale et permet une prédiction précise de variables instances, allant de zéro à des centaines d'objets par image. Sur le benchmark SA-Co dédié à la segmentation ouverte, Falcon Perception a atteint un score de Macro-F1 de 68,0, dépassant les 62,3 de SAM 3. L'amélioration est particulièrement notable dans les catégories riches en attributs, les produits alimentaires et les équipements sportifs. Cependant, le modèle présente encore un écart par rapport à ses concurrents en termes de calibration de présence, indiquant que la capacité à déclarer correctement l'absence d'objet reste un axe d'amélioration. Pour analyser ces performances de manière granulaire, les chercheurs ont introduit PBench, un nouveau benchmark diagnostique qui évalue les capacités du modèle selon des niveaux de complexité croissante, de la reconnaissance d'objets simples aux contraintes spatiales et relationnelles complexes. Les résultats montrent que Falcon Perception surpasse significativement les modèles généralistes sur les tâches nécessitant une compréhension contextuelle fine, comme la reconnaissance de texte pour la désambiguïsation ou la compréhension de relations spatiales. Parallèlement, le groupe a lancé Falcon OCR, un modèle léger conçu spécifiquement pour la compréhension de documents. Entraîné à partir de zéro pour des tâches d'optique caractérisées par une reconnaissance de glyphes fine, ce modèle atteint 80,3 sur le benchmark olmOCR et 88,6 sur OmniDocBench, se classant parmi les meilleurs tout en étant beaucoup plus petit que ses concurrents propriétaires. Grâce à son architecture compacte et à une optimisation pour le déploiement, Falcon OCR offre un débit de traitement environ trois fois supérieur aux modèles de 0,9 milliard de paramètres, ce qui le rend idéal pour la numérisation à grande échelle de documents. Ces développements valident l'hypothèse selon laquelle une architecture de transformateur à fusion précoce, couplée à des stratégies d'apprentissage par distillation et à des jeux de données massifs, peut surpasser les systèmes modulaires complexes. Le modèle Falcon Perception n'impose aucune limite à l'évolutivité future et suggère que les progrès futurs devraient davantage provenir de la qualité des données et des signaux d'entraînement que de l'ajout de modules spécialisés. Le code et les modèles sont désormais disponibles pour la recherche et le déploiement pratique.
