AI赋能视障人士:实时感知物体位置新突破
宾夕法尼亚州立大学的研究团队近日开发出一款名为NaviSense的AI智能手机应用,专为视障人士设计,能够实时帮助他们“感知”环境中物体的位置。该工具结合了视障群体的实际需求与人工智能技术,显著提升了导航与物品查找的效率与体验。 NaviSense通过语音指令识别用户寻找的物体,利用手机的音频与振动功能实时引导用户靠近目标。与传统视觉辅助工具不同,它无需预先加载物体模型,而是借助大型语言模型(LLM)和视觉语言模型(VLM),通过连接外部服务器实现对环境的实时理解与物体识别,极大提升了灵活性和响应速度。 项目负责人、电气工程教授Vijaykrishnan Narayanan指出,以往许多辅助系统依赖人工远程支持,存在效率低和隐私隐患;而自动化系统则受限于预设模型,难以应对动态环境。NaviSense通过AI模型解决了这一痛点,实现了真正的实时感知。 团队在开发前进行了多轮与视障人士的访谈,深入了解其日常挑战。基于反馈,NaviSense加入了对话式交互功能:若理解不清用户需求,系统会主动提问以缩小搜索范围。此外,它还能通过监测手机运动,实时追踪用户手部位置,提供精准的空间引导,如提示“物体在左侧”或“上方”,实现“瞄准即命中”的体验。 在12名参与者参与的对比测试中,NaviSense在识别准确率和查找效率方面均优于两款商用工具,且用户满意度更高。一位测试者评价:“它清楚告诉我物体在左还是右、上还是下,精准指引,一找就中。” 尽管效果显著,团队仍计划优化应用的能耗表现,提升AI模型运行效率,为未来商业化铺路。研究人员表示,该技术已接近实用阶段,将持续根据用户反馈改进,致力于打造真正贴近视障群体需求的智能辅助工具。
