谷歌DeepMind推出GenAI Processors:轻量级Python库实现高效并行AI内容处理
Google DeepMind 推出了 GenAI Processors,这是一款轻量级的开源 Python 库,旨在简化生成式 AI 工作流的管理,特别适用于实时多模态内容的处理。GenAI Processors 在 Apache-2.0 许可下发布,提供了一个高吞吐量的异步流框架,用于构建高级 AI 管道。 GenAI Processors 核心在于处理异步流中的 ProcessorPart 对象。这些对象代表了数据的离散块,如文本、音频、图像或 JSON,每个数据块都携带元数据。通过将输入和输出标准化为一致的数据流,该库实现了处理组件之间的无缝链接、组合和分支,同时保持双向通信。内部使用 Python 的 asyncio 技术,使得每个管道元素可以并行运行,显著减少了延迟,提高了整体吞吐量。 GenAI Processors 优化了“首次输出延迟”(TTFT)。当上游组件生成流的一部分时,下游处理器立即开始工作。这种流水线执行方式确保了包括模型推理在内的操作可以重叠并平行进行,有效利用了系统和网络资源。 该库提供了与 Google 的 Gemini API 的现成连接器,包括同步的基于文本调用和 Gemini Live API 用于流式应用程序。这些“模型处理器”抽象了批量处理、上下文管理和流式 I/O 的复杂性,使工程师能够快速原型化交互系统,例如实时评论代理、多模态助手或工具增强型研究探索者。 GenAI Processors 强调模块化,开发者可以构建可重用的单元——处理器——每个单元封装了明确定义的操作,从 MIME 类型转换到条件路由。contrib/ 目录鼓励社区贡献自定义功能,进一步丰富生态系统。常用工具支持任务如分割/合并流、过滤和元数据处理,使复杂的管道构建变得简单快捷。 GenAI Processors 与诸如 google-genai SDK(生成式 AI 的 Python 客户端)和 Vertex AI 等工具协同工作,但更专注于提供一个专注于流处理能力的结构化编排层。与主要关注 LLM 链接的 LangChain 或构建神经组件的 NeMo 不同,GenAI Processors 在管理和协调高效的异步模型交互方面表现突出。