HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA 革新视觉感知:精准实现眼神接触与注视方向检测

NVIDIA的“眼接触与凝视检测”技术,将人类对话设计与重型机械操作员安全巧妙结合,揭示了一个深刻而被忽视的共通点:注意力是否集中。 在人际对话中,眼神交流是判断对方是否投入的核心信号——目光交汇意味着共同关注,目光移开则表明注意力转移。研究显示,这种非语言信号比语气或肢体动作更能传递真实意图。在对话中,说话者通常在即将结束时直视对方,以提示“轮到你了”;而听者则通过持续注视表达专注与信任。这些微妙的“眼神规则”构成了人类互动的底层逻辑。 然而,当前绝大多数语音交互系统——如智能音箱、车载助手——完全缺失了这一关键通道。它们没有“脸”,无法感知用户的眼神变化,导致人机交互失去了最丰富的社交维度。这不仅影响对话体验,更在特定场景下带来安全隐患。 在工程机械操作中,比如卡特彼勒矿用卡车驾驶,操作员是否专注直接关系到生命安全。若驾驶员视线偏离,系统若无法察觉,可能错过关键预警。因此,判断“是否在看”成为生死攸关的问题。 NVIDIA Maxine眼接触功能提供了一种巧妙的解决方案。它能将摄像头中人物偏移视线的视频,实时修正为直视镜头的效果。虽然API不直接输出凝视角度数据,但通过对比原始帧与修正后的帧差异,可反推出注意力状态:若修正幅度小,说明用户在注视;若修正剧烈,则表示视线明显偏移。 基于此,作者构建了一个原型系统,用于安全监控。该系统通过分析视频中上半部分(头部与眼部区域)的像素差异,识别注意力分散事件。系统输出包括:彩色边框(绿/黄/红)、状态提示、实时分值条、时间线图表以及安全报告,涵盖专注度百分比、事件数量与严重等级,并给出“通过/警告/失败”结论。 整个系统仅用约300行Python代码实现,集成NVIDIA的Eye Contact NIM与Gradio界面,支持本地上传视频并生成带标注结果的可视化报告。 这项技术表明,眼动分析不仅是提升对话体验的工具,更是保障高危作业安全的关键屏障。当机器能“看见”人类的注意力,人机协作才能真正走向安全、可信与自然。

相关链接

NVIDIA 革新视觉感知:精准实现眼神接触与注视方向检测 | 热门资讯 | HyperAI超神经