HyperAIHyperAI

Command Palette

Search for a command to run...

Falcon Perception

阿联酋技术研究所(TII)发布了Falcon Perception与Falcon OCR两项突破性开源模型。Falcon Perception是一个仅含0.6B参数的早期融合Transformer,旨在通过统一序列处理图像块和文本,实现开放词汇的物体定位与分割。该模型采用混合注意力机制,使同一骨干网络既能处理双向视觉上下文,又能支持自回归预测。通过独特的“感知链”架构,它将每个实例的预测分解为坐标、尺寸和分割掩码三个有序步骤,有效解决了密集场景下的可变数量实例预测难题。 在SA-Co基准测试中,Falcon Perception取得了68.0的Macro-F1分数,超越SAM 3的62.3分,尤其在属性识别、食品饮料及运动器材等细分领域表现优异。团队同时推出了诊断基准PBench,揭示模型在OCR辅助消歧、空间关系理解及密集场景处理上的显著优势,尽管在存在性校准方面仍有提升空间。此外,Falcon OCR是一款0.3B参数的轻量化模型,专为文档理解设计。它在olmOCR和OmniDocBench上分别取得80.3和88.6的高分,在表格识别和多列排版任务上超越多个参数量更大的竞品,且凭借极简架构实现了极高的推理吞吐量。 Falcon系列的核心设计理念是摒弃复杂的模块化流水线,转而利用单一骨干网络配合高质量数据与训练信号来实现感知与语言的双重能力。这种早期融合架构不仅降低了系统复杂度,还证明了数据规模比模型结构更能驱动性能提升。目前,两款模型已支持PyTorch推理及vLLM部署,为大规模文档数字化和开放词汇视觉理解提供了高效、开源的解决方案。

相关链接

Hugging FaceHugging Face