当前位置: 首页 > news >正文

懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!

这是苍何的第 558 篇原创!

大家好,我是苍何。

最近 Codex 新出了一个能力,让 Codex 捕捉你的屏幕,然后录制一套工作流,Codex 就可以把它转为 skill,然后,形成你自己的工作流 SOP。

我尝试使用该功能来辅助我对微信聊天记录进行读取,并回复,我发现它并没法把聊天记录同步到上下文中,更无法直接帮我回复。

虽说我已经拿到了微信小微的内测,但目前还仅限于手机端,很多时间其实我是对着电脑的。

找了一些骚操作,感觉都不够丝滑和安全,这两天倒是被安利了个能读取屏幕干活的 Agent。

你可以看到在右侧这个助手它帮我总结了 AI 先行者联盟微信群聊昨天的精华内容,这个 Agent 的逻辑是像人一样盯着你的屏幕,然后自己滑动,总结上下文。

遇到视频或者链接,还能自己打开,看完后并放在上下文里。

它叫 Vida,是一个 Proactive Agent,它能够持续理解用户的上下文、积累长期记忆,并能够预判用户意图,主动协助完成复杂工作,交付可直接使用的成果。

它能感知到我当前所处的应用环境,结合上下文,帮我做文案润色,比如回复消息。

就比如最近 Wesight 推出了宠物语音新功能,我很想在用户群里问问大家使用体验。

在聊天界面快捷键直接唤起 Vida,你可以看到此时 Vida 的上下文里添加了微信应用,当我发送指令润色我的回复的时候,实际它能感知当前群聊上下文信息,并给我优化回复。

有时候,甚至还能充当智能客服的场景,比如刚好有个小伙伴问了一个项目的问题,说实话细节我有点忘了。我尝试把这个问题丢给Vida。

很神奇的是,我没有给它上传过项目文档。

它自己在我电脑里搜索相关资料、 GitHub 本地仓库、历史聊天和项目记录,给了我一个可以直接复制的回复。

这个点还是很强的,Vida 会理解上下文,判断用户意图,并主动协助完成任务。

Wesight 后台也积累了不少 Issue。

说实话,项目规模起来之后,我很难一眼看出哪些问题需要优先解决。

于是,我让Vida把整个仓库过了一遍。

它自己把所有代码和 Issue 读了一遍,按照核心架构、运行环境、AI 引擎集成等维度分门别类,甚至排好了优先级。

后面该修啥、先修啥,我直接看它列的清单干活就行,真香!

我让它把这些加到待办,顺便安排到明天的日程里面。

讲真,这种感觉真的很妙。

我还用 Wesight 连接 Claude Code 做网页。

我只输入了一句提示词,让Vida帮我进行一波提示词优化。

它很快给了两个优化版本,我直接复制贴回了 Wesight。

优化后的提示词生成的网页效果,交互感直接拉满,样式也很不错。

在休息间隙,我还让Vida帮我做了个桌面大扫除。

堆在桌面上的各种凌乱文档、临时图片,被分类整理得整整齐齐。

忙活到晚上,它还会自动为我生成一张「今日战报卡」。

清晰总结了完成的事项、关键产出、用时分布、今日关键词以及明天的 To-do 计划。

很神奇的是。

我在做视觉交互测试和整理 Obsidian 笔记时,没有主动打开过Vida。

但等我晚上看战报时,Vida居然在今日进展里,把这两件事清清楚楚地列了出来。

你还别说,这种无需主动召唤、默默在后台打助攻的能力,真的很顶。

这也就是它最核心的定位,Proactive Agent(主动型智能体)

相比普通被动等待指令的 AI,Vida能持续理解你的工作上下文,积累属于你自己的长期记忆。

Vida能提前预判你的意图,主动站出来协助你处理各种复杂日常,直接交付成型的结果。

不知道大家有没有发现,Agent 的上下文正在从「文本/对话」向「屏幕」快速转变。

不管是前段时间 Codex 录屏固化 SOP,还是操作系统级别的 Agent。

我有预感,智能体的演进,正在迎来一个颠覆性的全新方向。

那就是从「你告诉我」变成「我看见你」

这种转变,某种程度上意味着AI助手正在从工具走向伙伴。

你不需要频繁给它输入指令,它默默看着你的屏幕,就能懂你在忙什么、需要什么,然后主动打出助攻。

http://www.gsyq.cn/news/1618988.html

相关文章:

  • 零成本解锁全能AI助手:Codex++接入Agnes免费全模态API完全指南(免费生成图片、视频)
  • 跨平台存储革命:如何在Windows上解锁Linux Btrfs文件系统的全部潜能
  • 制造业集团数字化转型,标签打印软件国产化替代优先落地思路
  • Java虚拟线程实战:Project Loom让并发编程更简单
  • 厨房电热水器出海:初创品牌如何用轻量化海外客服破解复杂售后难题
  • 智谱GLM-5.2开源引发安全警报,无审查限制具备仓库级漏洞挖掘能力
  • 深度拆解维普露禾AI教科研平台:学术知识图谱+大模型如何破解教育场景AI幻觉问题
  • 2026智能门锁硬核横评:安全、AI与售后全维度大解密,谁才是真正的“看门神”?
  • 共同关心的话题进行了建设性交流
  • 每个人的遗忘程度都不一样,建议第二天复习前一天的内容,
  • 计算机毕业设计之基于大数据技术的新能源汽车销售数据可视化平台设计与实现
  • 苹果重启iRing传言背后:健康监测优势凸显,欲在医疗健康市场分一杯羹
  • 低门槛股票量化工具横评:回测盯盘风控和条件单怎么分工
  • 广州小程序开发十大品牌哪家好?
  • 传统包装仅起保护作用,编程包装文案视觉溢价测算,高颜值文化包装,提升礼盒服饰成交单价。
  • Java毕设选题推荐:基于 SpringBoot 的应急物资库存监控预警系统的设计与实现 基于 SpringBoot 的公共应急物资出入库溯源系【附源码、mysql、文档、调试+代码讲解+全bao等】
  • KMR221与PIC32MZ的高精度电压监测方案解析
  • 通达信多版本完美共享方案:一键共用vipdoc盘后数据\+T0002自选股\+全部自定义公式
  • Halcon 向量到变换矩阵算子对比
  • Claude Sonnet 5 正式发布:模型 ID、价格、上下文变化与接入要点
  • 计算机Java毕设实战-基于 SpringBoot 的企业会议室资源调度管理系统的设计与实现 基于 SpringBoot 的智能会议室线上预订管【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 【电赛/毕设天花板】别再调包 SimpleFOC 了!STM32 纯手写 FOC 矢量控制:空间变换、SVPWM 与相电流采样硬核指南
  • XXL-JOB v3.4.0 发布 | OpenClaw集成、合并调度、健壮性及体验增强
  • 公司电脑文件如何加密?这几种办法有效又实用
  • 文件转Base64编码工具
  • AI实战培训的核心价值:落地能力才是核心竞争力
  • 一张图讲清楚:上下文窗口大了,为什么 Agent 还是会忘事
  • 蒸汽流量计选型指南
  • Java计算机毕设之基于 SpringBoot 的办公会议室智能申请系统的设计与实现 基于 SpringBoot 的会议场地资源分配管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 2026 企业网络高质量博文(升级版|更专业、更落地、更有传播力)下一代企业网络:从 “能用” 到 “好用”,打造数字化时代的核心竞争力