当前位置：首页 > news >正文

OpenClaw Skill Eval重构：让AI代理学会说‘不’

news 2026/6/20 2:39:57

1. 项目概述：这不是调参，是给OpenClaw“重装大脑皮层”

“openclaw造神记录-03：解决openclaw蠢、笨、憨、傻、答非所问的skill”——这个标题里没有一个字在讲技术参数，但每个字都在戳痛点。我第一次跑通OpenClaw时，也对着终端日志发过呆：它能精准调用weather-skill查出北京实时温度，可当我问“今天适合晾衣服吗”，它却开始背诵《气象法》第三章第二节。不是它没能力，是它根本没理解“晾衣服”和“湿度+紫外线+风速”之间的映射关系。这问题不叫“bug”，叫“认知断层”。

核心关键词里反复出现的skill，绝不是插件或功能模块那么简单。在OpenClaw架构里，skill是决策代理（agent）与物理/数字世界交互的神经突触——它负责把自然语言指令翻译成可执行动作，再把执行结果结构化反馈回推理链。而标题中“蠢、笨、憨、傻、答非所问”，本质是skill的意图识别失准、上下文绑定失效、响应策略错配三重故障叠加的结果。这不是靠改几行prompt能解决的，必须从eval机制、skill注册协议、tool calling路由逻辑三个层面动刀。

适合谁看？如果你已经成功部署了OpenClaw（无论docker版、群晖版还是Windows本地版），能跑通hello-world-skill，但每次想让它干点实事就翻车；如果你在clawhub下载了十几个skill却只有3个能用；如果你被eval返回的布尔值逼疯，想知道“为什么不能返回浮点数做置信度判断”——这篇就是为你写的。它不教你怎么安装，只告诉你：当OpenClaw开始说胡话时，你该拧哪颗螺丝。

我试过七种修复路径：暴力微调LLM权重、重写所有skill的YAML描述、魔改superpowers-skill的调度器、甚至给grill-me-skill加了三层校验……最后发现，90%的“答非所问”源于一个被所有人忽略的细节：OpenClaw的skill eval不是在评估能力，是在评估服从性。它默认所有skill都该无条件执行，却没给skill留出“拒绝执行”的权利。而人类最聪明的技能，恰恰是知道什么时候不该动手。

2. 核心设计思路：用eval重构skill的“职业伦理”

2.1 为什么传统skill调试注定失败？

先说个血泪教训：上周有位朋友在群晖Docker里部署OpenClaw，接入飞书后让finance-analysis-skill分析股票K线。他反复修改skill.yaml里的description字段，把“分析股价趋势”改成“请用MACD+布林带分析60分钟K线并给出买卖建议”，结果OpenClaw要么返回空，要么直接调用浏览器打开东方财富网。他以为是prompt太弱，其实问题出在更底层——OpenClaw的eval机制压根没读取description，它只认intent_schema里定义的JSON Schema。

这里必须拆开讲清楚：OpenClaw的skill调用流程是三段式流水线：

意图解析层（Intent Parser）：把用户输入转成结构化intent对象（含action、parameters、confidence）
skill路由层（Router）：根据intent.action匹配已注册skill的trigger_actions列表
执行评估层（Eval Engine）：对匹配到的skill运行eval()函数，返回布尔值决定是否执行

而绝大多数人卡死在第2步——他们以为改description就能影响路由，实际trigger_actions才是路由的唯一身份证。比如weather-skill的trigger_actions可能是["get_weather", "forecast"]，但你在description里写一百遍“查明天会不会下雨”，只要用户query没触发这两个action，skill就永远进不了eval环节。

提示：eval函数不是AI模型生成的，是skill开发者用Python写的硬逻辑。它的作用不是判断“能不能做”，而是判断“该不该做”。比如ppt-skill的eval可能检查当前是否有PPT模板文件，nature-skill的eval可能验证用户是否在自然保护区范围内——这些都不是LLM能凭空推断的。

2.2 “造神”的本质：让skill学会说“不”

标题里“蠢、笨、憨、傻”的根源，是OpenClaw默认所有skill都该100%服从。但真实世界里，好用的skill必须有“职业边界感”。frontend-design-skill不该处理金融数据，comet-skill不该调用本地数据库——这不是能力缺陷，是设计哲学。

我们重构的核心，就是把eval从“开关”变成“仲裁庭”。具体分三步走：

第一步：强制skill声明能力边界
在skill.yaml新增capability_constraints字段，用JSON Schema定义skill能处理的参数范围。比如browser-relay-skill声明{"max_concurrent_tabs": {"type": "integer", "maximum": 5}}，当用户要求同时打开20个网页时，eval直接返回False。
第二步：注入上下文感知eval
原生eval只接收intent对象，我们扩展为接收(intent, context)元组。context包含当前会话历史、用户角色（管理员/访客）、系统负载等。比如workbuddy-skill在CPU使用率>90%时自动降级为只返回文字摘要。
第三步：建立eval可信度分级
放弃布尔值，改用浮点数[0.0, 1.0]表示执行置信度。0.0=绝对不执行，1.0=无条件执行，0.7=需用户二次确认。这直接解决了热词里“eval能返回浮点数吗”的痛点——不是不能，是原生框架没暴露接口。

实测效果：修复前，openclaw 金融分析skill在用户问“帮我买比特币”时会尝试调用交易所API（导致报错）；修复后，它的eval检测到action="buy_crypto"超出capability_constraints，返回0.2并提示“该操作需人工审核”。

2.3 为什么必须绕过clawhub的skill仓库？

看到热词里高频出现clawhub、skill仓库、skill推荐，我得泼盆冷水：clawhub上80%的skill是“半成品”。它们的eval函数要么是占位符return True，要么是简单字符串匹配。比如impeccable-skill的eval只检查用户输入是否含“impeccable”这个词，导致用户说“这个方案不够impeccable”时它反而开始执行。

我们选择手动接管skill注册流程，原因有三：

版本污染风险：clawhub的codex-skill最新版依赖openclaw 2026.2.5，但你的群晖docker跑的是2026.1.8，强行安装会导致tool_calling协议不兼容
eval逻辑黑箱：你无法审计clawhub上superpowers-skill的eval源码，它可能在后台收集用户query用于模型训练
调试不可见：clawhub下载的skill打包成.whl，修改eval要反编译，而本地开发的skill可直接改skill.py

我的做法是建私有skill registry：所有skill按{name}/{version}/skill.py目录存放，启动OpenClaw时用--skill-dir /path/to/private-skill-registry参数加载。这样既能复用clawhub的优质skill（如grill-me-skill），又能随时替换其eval逻辑。

3. 实操细节：手把手重写eval引擎与skill协议

3.1 深度解剖原生eval的致命缺陷

先看OpenClaw 2026.2.5版eval的原始实现（位于openclaw/agent/skill_router.py）：

def _evaluate_skill(self, skill: Skill, intent: Intent) -> bool: try: return skill.eval(intent) except Exception as e: logger.warning(f"Eval failed for {skill.name}: {e}") return False

表面看很干净，但藏着三个坑：

坑一：异常吞噬
except Exception捕获了所有错误，包括MemoryError、ConnectionError，导致skill明明因网络超时失败，eval却返回False让用户以为“不该执行”，而非“执行失败”。
坑二：无上下文透传
intent对象里只有action和parameters，没有session_id、user_id、timestamp。而frontend-design-skill需要知道这是第几次设计请求（避免重复生成相同UI），nature-skill需要timestamp判断是否在禁入时段。
坑三：布尔值语义模糊
返回True可能意味着“能力足够”，也可能只是“没报错”。当ppt-skill的eval检查到本地无PowerPoint软件时，它该返回False（不能执行）还是抛异常（执行环境缺失）？原生框架没定义。

我们重写的eval_v2协议强制要求：

所有skill的eval方法签名必须为def eval(self, intent: Intent, context: Context) -> EvalResult
EvalResult是自定义类，含score: float、reason: str、suggested_action: Optional[str]三个字段

from dataclasses import dataclass from typing import Optional @dataclass class EvalResult: score: float # [0.0, 1.0] reason: str # 简明说明拒绝/降级原因 suggested_action: Optional[str] = None # 如"请上传PPT模板文件" # skill.py 示例 class WeatherSkill(Skill): def eval(self, intent: Intent, context: Context) -> EvalResult: # 检查是否在支持城市列表中 if intent.parameters.get("city") not in self.supported_cities: return EvalResult( score=0.3, reason=f"不支持查询{intent.parameters.get('city')}天气", suggested_action="请尝试北京、上海、广州" ) # 检查API配额 if context.api_quota_remaining < 10: return EvalResult( score=0.6, reason="天气API配额不足，将返回缓存数据", suggested_action=None ) return EvalResult(score=1.0, reason="可执行")

3.2 修改OpenClaw核心路由逻辑（适配所有部署方式）

无论你用docker版、Windows版还是群晖版，都要改openclaw/agent/skill_router.py。重点改三处：

第一处：注入context构建逻辑
在_route_intent方法开头，添加context生成：

# 原代码 def _route_intent(self, intent: Intent) -> Optional[Skill]: # ...原有逻辑 # 修改后 def _route_intent(self, intent: Intent) -> Optional[Skill]: # 构建context对象 context = Context( session_id=self._get_session_id(intent), user_id=self._get_user_id(intent), timestamp=datetime.now(), system_load=self._get_system_load(), # 新增方法 api_quota_remaining=self._check_api_quota(), # 新增方法 # 其他你需要的上下文字段 ) # 后续路由逻辑保持不变...

第二处：重写eval调用逻辑
替换原_evaluate_skill方法：

def _evaluate_skill(self, skill: Skill, intent: Intent, context: Context) -> EvalResult: try: result = skill.eval(intent, context) # 强制校验返回类型 if not isinstance(result, EvalResult): raise TypeError(f"Skill {skill.name} eval must return EvalResult") return result except Exception as e: logger.error(f"Eval crashed for {skill.name}: {e}", exc_info=True) return EvalResult( score=0.0, reason=f"Eval执行异常: {str(e)}", suggested_action="联系skill开发者" )

第三处：增加eval结果分级路由
在_route_intent末尾，根据EvalResult.score做智能路由：

# 原逻辑：只选score最高的skill # best_skill = max(candidate_skills, key=lambda s: self._evaluate_skill(s, intent)) # 新逻辑：按score分级处理 eval_results = [] for skill in candidate_skills: result = self._evaluate_skill(skill, intent, context) eval_results.append((skill, result)) # 按score排序，但引入阈值过滤 valid_skills = [(s, r) for s, r in eval_results if r.score >= 0.5] if not valid_skills: # 全部低于阈值，返回最高分者并提示 best_skill, best_result = max(eval_results, key=lambda x: x[1].score) return best_skill, best_result.reason # 附带reason提示用户 # 选择score最高的skill best_skill, best_result = max(valid_skills, key=lambda x: x[1].score) return best_skill, best_result.reason

注意：群晖Docker用户需进入容器执行docker exec -it openclaw bash，然后用vi编辑对应文件。Windows用户注意路径分隔符，建议用VS Code远程编辑。

3.3 为现有skill注入新eval（以codex-skill为例）

热词里高频出现codex-skill、codex安装skill，但它原生eval极简：

# codex-skill original eval def eval(self, intent: Intent) -> bool: return "code" in intent.action.lower()

这导致用户问“用Python画个饼图”时它能执行，但问“用Python连接MySQL”时也强行执行（尽管后续会报错）。我们重写为：

# codex-skill enhanced eval def eval(self, intent: Intent, context: Context) -> EvalResult: # 步骤1：意图深度解析 action = intent.action.lower() params = intent.parameters # 检查是否真需要代码生成 if not any(kw in action for kw in ["code", "script", "generate", "write"]): return EvalResult(score=0.1, reason="未检测到代码生成意图") # 步骤2：参数可行性验证 if "language" in params and params["language"] not in ["python", "javascript", "shell"]: return EvalResult( score=0.4, reason=f"不支持{params['language']}语言", suggested_action="目前仅支持python/javascript/shell" ) # 步骤3：安全边界控制 dangerous_keywords = ["os.system", "subprocess.run", "eval(", "exec("] if "code_snippet" in params: for kw in dangerous_keywords: if kw in params["code_snippet"].lower(): return EvalResult( score=0.0, reason="检测到高危代码操作", suggested_action="请移除危险函数调用" ) # 步骤4：资源约束检查 if context.system_load > 0.85: return EvalResult( score=0.7, reason="系统负载过高，将限制代码生成复杂度", suggested_action=None ) return EvalResult(score=1.0, reason="可安全执行")

实测对比：修复前，codex-skill对“用Python删除C盘所有文件”返回True并尝试执行；修复后，它在步骤3直接拦截，返回score=0.0并提示危险操作。

4. 完整实操流程：从部署到上线的每一步验证

4.1 环境准备与版本锁定（避坑关键）

所有操作前，请先确认你的OpenClaw版本。热词里有openclaw 2026.2.5版本，但很多用户实际装的是2026.1.x。版本错配会导致Intent对象字段变更（如2026.2.5新增intent.confidence字段），引发eval崩溃。

验证命令（任选其一）：

# Docker用户 docker exec openclaw python -c "import openclaw; print(openclaw.__version__)" # Windows用户 openclaw --version # 群晖用户（进入docker容器后） pip show openclaw | grep Version

版本锁定操作（防止自动升级破坏修改）：

# Docker用户，在docker-compose.yml中指定镜像 services: openclaw: image: openclaw/openclaw:2026.2.5 # 强制固定版本 # ... # pip用户 pip install openclaw==2026.2.5 --force-reinstall

注意：热词里有群晖 docker openclaw 下载哪个，群晖用户请务必去Docker Registry搜索openclaw/openclaw，选择2026.2.5标签，不要用latest。我见过太多人因latest自动升级到2026.3.0，导致所有自定义eval失效。

4.2 修改eval引擎的完整操作清单

按顺序执行，漏一步都会失败：

步骤	操作	验证方式	常见错误
1	备份原`skill_router.py`	`cp skill_router.py skill_router.py.bak`	不备份直接改，出错无法回滚
2	替换`_evaluate_skill`方法	检查文件中是否还有旧版`def _evaluate_skill`	用`grep -n "_evaluate_skill" skill_router.py`定位
3	添加`Context`类定义	在文件顶部导入`from datetime import datetime`，定义`Context`类	忘记定义`Context`导致`NameError`
4	修改`_route_intent`注入context	运行`openclaw --help`不报错	忘记在`_route_intent`开头添加context构建
5	重启OpenClaw服务	`docker restart openclaw`或`systemctl restart openclaw`	未重启，修改不生效

群晖Docker特殊操作：
进入Docker套件 → 找到openclaw容器 → 点击“详情” → “终端机” → 输入bash→ 执行cd /app/openclaw/agent/→ 用vi skill_router.py编辑。编辑完按ESC→:wq保存。

4.3 为第一个skill编写eval_v2（以browser-relay-skill为例）

热词里有openclaw browser relay下载，这是高频使用skill。我们拿它练手：

Step 1：创建skill目录结构

mkdir -p /path/to/skills/browser-relay/2026.2.5/ cd /path/to/skills/browser-relay/2026.2.5/

Step 2：编写skill.py

from openclaw.agent.skill import Skill from openclaw.agent.intent import Intent from dataclasses import dataclass from typing import Optional @dataclass class Context: session_id: str user_id: str timestamp: datetime system_load: float api_quota_remaining: int class BrowserRelaySkill(Skill): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) self.max_tabs = 5 # 硬编码限制，生产环境应从配置读取 def eval(self, intent: Intent, context: Context) -> EvalResult: # 检查action合法性 if intent.action not in ["browse", "search", "scrape"]: return EvalResult( score=0.2, reason=f"不支持{intent.action}操作", suggested_action="仅支持browse/search/scrape" ) # 检查参数完整性 if "url" not in intent.parameters and "query" not in intent.parameters: return EvalResult( score=0.3, reason="缺少必要参数（url或query）", suggested_action="请提供网址或搜索关键词" ) # 检查并发限制 current_tabs = self._count_current_tabs() # 伪代码，实际需调用浏览器API if current_tabs >= self.max_tabs: return EvalResult( score=0.5, reason=f"浏览器标签页已达上限({self.max_tabs})", suggested_action="请关闭部分标签页" ) # 检查URL安全性（基础版） url = intent.parameters.get("url", "") if url.startswith("file://") or "localhost" in url: return EvalResult( score=0.0, reason="禁止访问本地文件或内网地址", suggested_action="请提供公网URL" ) return EvalResult(score=1.0, reason="可执行") # 必须定义此变量，OpenClaw通过它加载skill skill = BrowserRelaySkill()

Step 3：编写skill.yaml

name: browser-relay version: 2026.2.5 description: "通过浏览器执行网页浏览、搜索、内容抓取" trigger_actions: - browse - search - scrape capability_constraints: max_concurrent_tabs: 5 allowed_domains: ["baidu.com", "google.com", "wikipedia.org"]

Step 4：启动OpenClaw并加载

openclaw --skill-dir /path/to/skills/

验证测试：

# 测试1：正常请求 curl -X POST http://localhost:8000/ask \ -H "Content-Type: application/json" \ -d '{"query": "用浏览器打开百度"}' # 测试2：触发eval拦截 curl -X POST http://localhost:8000/ask \ -H "Content-Type: application/json" \ -d '{"query": "用浏览器打开file:///etc/passwd"}'

预期结果：测试1返回百度页面内容，测试2返回{"error": "禁止访问本地文件或内网地址"}。

5. 常见问题与独家排查技巧实录

5.1 “eval返回浮点数但OpenClaw不识别”问题溯源

热词里高频提问“eval能返回浮点数吗”，答案是“能，但原生框架不处理”。当你在skill里返回EvalResult(score=0.7)，OpenClaw仍按布尔值处理——因为_route_intent里没改if result.score >= 0.5的判断逻辑。

排查步骤：

在_evaluate_skill方法末尾加日志：logger.info(f"Eval result: {result.score} for {skill.name}")
触发skill，查看日志是否输出浮点数值
如果日志显示0.7但OpenClaw仍执行，说明_route_intent没用新eval结果

终极修复：
找到_route_intent中调用_evaluate_skill的位置，确保返回值被正确使用：

# 错误写法（忽略score） for skill in candidate_skills: self._evaluate_skill(skill, intent, context) # 返回值被丢弃！ # 正确写法 eval_results = [] for skill in candidate_skills: result = self._evaluate_skill(skill, intent, context) eval_results.append((skill, result))

5.2 “OpenClaw为什么会延迟”的真实原因

热词里“openclaw为什么会延迟”被问爆，但90%的人归咎于LLM响应慢。实测发现，延迟主因是eval阻塞。比如nature-skill的eval要调用高德地图API查坐标，单次耗时2秒，而OpenClaw默认串行执行所有候选skill的eval。

优化方案：

并行eval：用concurrent.futures.ThreadPoolExecutor并发执行eval
超时熔断：给eval加timeout=3.0，超时直接返回EvalResult(score=0.0)
缓存机制：对相同intent+context组合缓存eval结果（TTL=60秒）

from concurrent.futures import ThreadPoolExecutor, TimeoutError import functools def _evaluate_skill_with_timeout(self, skill: Skill, intent: Intent, context: Context, timeout: float = 3.0) -> EvalResult: try: with ThreadPoolExecutor(max_workers=1) as executor: future = executor.submit(skill.eval, intent, context) return future.result(timeout=timeout) except TimeoutError: return EvalResult( score=0.0, reason=f"Eval执行超时({timeout}s)", suggested_action="请简化请求" )

5.3 “启动关闭openclaw后skill失效”问题

群晖用户常遇到：重启Docker容器后，自定义skill消失。这是因为OpenClaw默认只加载/app/skills/下的skill，而群晖Docker卷映射时没把自定义目录挂载进去。

永久解决方案：
修改docker-compose.yml，添加卷映射：

services: openclaw: image: openclaw/openclaw:2026.2.5 volumes: - /volume1/docker/openclaw/skills:/app/skills # 映射自定义skill目录 - /volume1/docker/openclaw/config:/app/config

然后把你的skill放到/volume1/docker/openclaw/skills/下，重启即可。

5.4 “openclaw接入微信/飞书后答非所问”专项修复

微信/飞书接入时，用户query会被平台加前缀（如飞书消息带@openclaw），导致intent解析错乱。比如用户发“查天气”，飞书实际传给OpenClaw的是“@openclaw 查天气”。

修复代码（在_route_intent开头添加）：

def _route_intent(self, intent: Intent) -> Optional[Skill]: # 清理平台前缀 if hasattr(intent, 'raw_query') and intent.raw_query: cleaned_query = intent.raw_query.replace("@openclaw", "").strip() # 重新解析intent new_intent = self._parse_intent(cleaned_query) intent = new_intent if new_intent else intent # 后续逻辑不变...

5.5 实战问题速查表

现象	可能原因	排查命令	解决方案
`openclaw命令`执行后无响应	`skill_router.py`语法错误	`python -m py_compile /path/to/skill_router.py`	用`py_compile`检查语法
`openclaw卸载`后重装仍用旧eval	pip缓存未清除	`pip cache info`	`pip cache purge`后重装
`docker版openclaw`修改不生效	文件在容器外修改	`docker exec openclaw ls /app/openclaw/agent/`	确认修改的是容器内文件
`openclaw windows`报`ModuleNotFoundError`	路径分隔符错误	`print(os.path.sep)`	将`/`改为`os.path.sep`
`frontend-design skill`返回空白	eval返回score<0.5但没提示	查看`openclaw.log`中的`Eval result`日志	在`_route_intent`中打印所有eval结果