当前位置：首页 > news >正文

又一个被低估的AgentSkill 诞生了！

news 2026/5/25 8:55:13

又一个神级 Agent Skill 诞生了这两年AI Agent 的能力进化得越来越快。从最开始只能聊天、写代码到现在开始真正接管浏览器、操作网页、执行流程很多人已经意识到下一阶段的 AI不只是“会思考”而是“会干活”。但现实问题也很明显。真正把 AI 接进真实网页后你会发现理想很丰满现实却到处是坑。AI Agent 一碰网页为什么总在最后一步翻车很多人第一次尝试用 AI Agent 做网页自动化时都会有一种“看起来很智能但真正实战却不太行”的感觉。比如网页刚打开就突然弹出 Cloudflare 验证表单填写到一半按钮无法点击账号明明登录成功页面跳转后却又掉了登录态任务运行了十几分钟最后只返回一句“执行失败”。而今天要说的这个 GitHub 开源项目 —— browser-act/skills核心目标就是解决这些真实网页环境中的自动化问题。项目地址https://github.com/browser-act/skills这个项目到底是什么简单来说BrowserAct Skills 可以看成是一套专门提供给 AI Agent 使用的“浏览器技能系统”。它并不是重新做一个 AI 聊天机器人而是希望让现有的大模型工具真正拥有操作真实网页的能力。根据官方介绍这套系统能够帮助 AI 完成网页浏览、按钮点击、文本输入、页面截图、信息提取、会话维持等操作同时重点增强了对真实网站环境中各种复杂情况的处理能力。例如反爬机制、验证码、登录状态失效、页面重定向等问题都做了针对性优化。目前这个项目在 GitHub 上已经获得大约 1.4k Star 和 34 Fork采用 MIT 开源协议主要基于 Python 开发。它最核心的两部分能力是什么整个仓库里最关键的部分主要有两个一个是 browser-act另一个则是 browser-act-skill-forge。其中 browser-act 更像是一个网页自动化执行器。它能够直接驱动真实 Chrome 浏览器让 AI 像真人一样完成网页导航、点击按钮、输入文本、截图以及读取页面状态等动作。官方示例中提供了 navigate、click、input、state、screenshot 等操作命令非常适合处理一次性的网页自动化任务。而另一个 Skill Forge则明显更偏向“长期复用”。它不仅仅是执行任务而是允许 AI 先去探索某个网站的结构与逻辑然后自动生成一套可复用的技能文件包括 SKILL.md 与对应 Python 脚本。换句话说同一种网站的数据提取逻辑不再需要 Agent 每次重新摸索。这意味着什么过去很多 AI Agent 最大的问题并不是“不会执行”而是“每次都要重新学习”。而 Skill Forge 的价值本质上是在让 AI 开始沉淀经验。第一次探索网站可能很慢但后面就能直接复用已有技能大幅降低重复操作成本。这也是为什么越来越多人开始把它视为 AI Agent 真正走向“流程化执行”的关键一步。为什么它特别适合网页数据抓取传统的数据采集方案往往严重依赖 CSS Selector 或接口规则。问题是只要网页结构稍微变化一下或者登录逻辑改了、分页机制变了原来的脚本很容易直接报废。而 BrowserAct Skills 的思路则完全不同。它不是单纯依赖页面结构而是把网页操作拆分成更加稳定、可复用的“技能模块”。比如抓取电商商品数据、监控社交媒体内容、提取本地商家联系方式、获取 YouTube 字幕、追踪新闻热点等都可以被封装成独立技能。项目 README 中已经提供了一些现成技能案例例如Amazon ASIN Lookup Skill、Amazon Best Selling Products Finder、Google News API Skill、Google Maps API Skill、YouTube Transcript Extractor 等。覆盖的领域包括电商、地图、本地商业、新闻以及视频内容处理等多个方向。它对开发者最大的价值是什么对于开发者来说这个项目真正有价值的地方在于它大幅降低了“AI 操作网页”的工程复杂度。以前如果你想让 AI 自动完成网页任务通常需要自己处理很多麻烦事比如写 Playwright、维护浏览器指纹、管理登录状态、设计异常重试逻辑、清洗 HTML再把数据交给大模型处理。整个链路不仅复杂而且维护成本极高。但现在BrowserAct Skills 已经把其中大量通用能力提前封装好了。官方重点提到的一些能力包括Anti-Detection Stealth、真实 Chrome 控制、并发浏览器执行、自动验证码处理、代理模式、隐私浏览以及减少无效 HTML 内容传输等。这样不仅可以降低 Token 消耗还能提升整体执行效率。可以和哪些 AI 工具一起使用BrowserAct Skills 并不是绑定某一个 AI 平台使用的。根据官方说明它目前已经能够与 Claude Code、Cursor、VS Code、OpenCode、OpenClaw、Codex、Gemini CLI 等工具协同工作。安装方式也比较简单例如npx skills add browser-act/skills --skill browser-act如果需要使用技能自动生成能力则可以执行npx skills add browser-act/skills --skill browser-act-skill-forge哪些人会特别需要它如果你只是偶尔让 AI 总结网页内容那么这个项目可能并不是刚需。但如果你长期在做数据采集、竞品监控、销售线索挖掘、电商分析、新闻追踪或者正在尝试把 AI Agent 接入真实业务流程那么 BrowserAct Skills 的价值会非常明显。因为它解决的核心问题并不是“AI 能不能写代码”。而是AI 到底能不能稳定地在真实网页环境里完成任务。这其实才是 AI Agent 真正走向生产力工具时最难的一步。总结browser-act/skills 的出现其实透露出一个很明显的趋势AI Agent 正在从“会聊天、会写代码”逐渐升级成“能够真正执行任务”的工具。而网页世界本来就是自动化里最复杂的战场之一。验证码、登录状态、反爬机制、动态加载、页面跳转……这些问题过去一直都是自动化系统最头疼的部分。而 BrowserAct Skills 所做的事情本质上就是把这些复杂问题沉淀成一套可以反复复用的浏览器技能。让 AI 不再每次都从零开始“摸着石头过河”。对于真正想把 AI Agent 用到真实业务场景里的开发者来说这类项目未来可能会越来越重要。

查看全文

http://www.gsyq.cn/news/1376599.html