HyperAI超神经

截图可能是构建高效AI助手的关键如果你想要更好地利用日益丰富的AI工具，不妨养成一个习惯：多截图。很多领域都在谈论语音模式、无处不在的摄像头以及多元化技术的未来，但可能会有一种更有价值的数字行为，就是按几下按钮，保存你眼前所见的内容。截图是最通用的数字信息捕捉方式，几乎可以捕捉任何内容，只需几次点击，即可保存并分享到几乎任何设备、应用或人。“这是一种便携的数据格式，”数字存储应用Fabric的创始人Johnny Bree表示，“没有其他方式能够在任何软件之间如此便携。” 截图不仅包含了信息来源、内容，甚至屏幕角落的时间，更重要的是，它传递了一个复杂而重要的信号：我关心这个。AI工具旨在观察世界、我们的生活以及一切事物，但目前大多表现不佳，原因在于AI能够识别事物，却难以判断其重要性。通过截图，用户可以自己训练系统，提供希望系统了解的信息。这比像Microsoft Recall这样的工具更好，后者需要不限制地访问所有内容，这些内容可能包含大量无用信息，此外还涉及隐私问题。近年来，截图的功能并没有显著提升。截图通常保存在相机胶卷中，除非需要通过其中的某些文本进行搜索，否则多数情况下会被遗忘。然而，现在的AI技术可以提取截图中的更多有用信息。例如，Google的Pixel Screenshots应用采用了光学字符识别（OCR）和实体检测模型，不仅能识别截图中的文字，还能区分其来源（例如WhatsApp的特定绿色背景）。通过这些信息，应用可以自动将所有截图分类整理。甚至，应用可以开始利用这些截图为用户做事，例如生成提醒事项或自动完成一些日常任务。 Nothing的新Essential Space应用就是一个例子，它可以生成基于已保存内容的提醒。如果你截图了一个希望参加的音乐会海报，它会在音乐会临近时自动提醒你。Google的Pixel Screenshots应用更进一步，如果保存了音乐会列表，下一次打开Spotify时，手机会提示你听这首歌。该应用团队的产品经理Shenaz Zack表示，他们希望将截图作为所有其他应用和功能的输入系统，使用户的日常生活更加便捷。然而，识别和利用截图的信息并非总是如此简单。有些截图需要长期保存，例如常用的身份证件；而有些内容如音乐会海报或停车证则使用期限很短。你怎么能让应用分辨出这两种不同的需求？再比如，如果你的设备中同时有工作中的停车证截图和机场使用过的停车证截图，应用该如何处理？有些应用在寻找方法，通过提示添加注释或手动分类来提供更准确的信息，但这些方法可能会破坏截图本身简单易用的特点。为了解决这些问题，一些公司如Google和Nothing正在从设备中收集额外的上下文信息。例如，截图时，他们会存储你正在查看的网页链接，或者记录你的位置、时间甚至天气。这些信息有时非常有用，但有时可能只是无用的数据，收集过多可能会重新引入截图帮助解决的噪音问题。不过，这一输入系统是有效的。我们已经习惯了通过截图来记录各种有用的信息。获取这种相关且个性化的数据是构建优秀AI助手的最大挑战。尽管多模态计算（包括摄像头、麦克风和各种传感器）是未来的趋势，但利用AI的一大突破可能就是从一张一张的截图开始。业内人士对这一趋势持积极态度。娄纳士资本的分析师王垚认为，通过截图获取用户的个性化数据是一种合理且高效的途径，未来可能会有更多应用场景。Google和Nothing等公司具备从设备中提取额外数据的能力，有望率先实现这一目标。

相关链接

相关链接

相关链接

支持真人、动漫与动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet，提升 VLM 图表重建与表格提取能力

支持真人、动漫与动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet，提升 VLM 图表重建与表格提取能力

Command Palette

截图：打造高效AI助手的秘密武器

相关链接

Command Palette

截图：打造高效AI助手的秘密武器

相关链接

Command Palette

截图：打造高效AI助手的秘密武器

相关链接

支持真人、动漫与动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet，提升 VLM 图表重建与表格提取能力

支持真人、动漫与动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet，提升 VLM 图表重建与表格提取能力