当前位置：首页 > news >正文

Openclaw安装与CLI自动化运维实战指南

news 2026/6/23 6:56:36

1. Openclaw 是什么？它解决的不是“能不能用”，而是“怎么用得稳、用得准、用得久”

Openclaw 这个名字最近在技术社区和自动化工具讨论区里频繁出现，尤其在 GitHub Trending 和国内开发者论坛中，搜索量持续走高。但很多人点进去第一眼看到 README 里的git clone && make build就卡住了——不是不会敲命令，而是根本不知道这东西到底在干什么、为什么非得这么装、装完之后连个基础 demo 都跑不起来。我去年底第一次接触 Openclaw 时也一样：文档写得像给维护者看的，示例代码缺环境约束，报错信息全是 Rust 的 panic backtrace，连error[E0433]: failed to resolve: use of undeclared type or module 'clap'这种基础依赖缺失都得自己翻 Cargo.toml 去猜版本兼容性。

简单说，Openclaw 是一个面向 CLI 工具链深度集成的开源命令行行为分析与自动化执行框架。它不提供图形界面，也不封装成黑盒服务；它的核心价值在于：把你在终端里反复敲的那套“先查状态 → 判断条件 → 执行动作 → 校验结果 → 循环重试”的逻辑，变成可声明、可复用、可审计的 YAML 流程定义。比如你每天要手动检查三台服务器的磁盘使用率、某个进程是否存活、日志里有没有 ERROR 关键字，再根据结果发告警或重启服务——Openclaw 就是帮你把这套操作固化成一个.ocl文件，然后用一条命令驱动整条流水线。

它和 Ansible、Shell 脚本、甚至 Python + Click 的区别在哪？关键在执行上下文隔离性和失败语义显式化。Ansible 默认以 SSH 远程执行，状态难以本地复现；Shell 脚本一旦某步出错，后续步骤全靠||或set -e硬扛，错误传播路径模糊；而 Openclaw 每个 step 都强制定义on_success/on_failure/on_timeout分支，且所有命令默认在独立的临时命名空间（namespace）中运行，输出、环境变量、甚至/proc视图都受控。这不是炫技，而是当你在生产环境批量巡检 200+ 容器节点时，能一眼看出是“命令超时”还是“权限不足”导致失败，而不是在 50 行 shell 日志里 grep 半小时。

所以这篇教程不叫“快速上手”，而叫“保姆级”——因为 Openclaw 的安装过程本身，就是一次对 Linux 系统底层能力的体检。它不依赖 Docker，但重度依赖unshare、nsenter、cgroup v2和procfs的稳定挂载；它不强制要求 Rust 环境，但源码编译时若rustc版本低于 1.75，clap和tokio的 feature gate 冲突会让你在cargo build --release阶段卡死 40 分钟。这些细节，官方文档不会写，但你实际部署时，一个都绕不开。

提示：本文所有操作均基于 Ubuntu 22.04 LTS（内核 6.5.0-xx）和 CentOS Stream 9（内核 5.14.0-xx）实测验证。如果你用的是 macOS 或 Windows WSL2，请跳过“命名空间支持检测”环节，直接用预编译二进制包——但务必注意，WSL2 的 cgroup v2 默认未启用，需手动修改/etc/wsl.conf并重启发行版。

2. 安装前必做的五项系统健康检查：90% 的失败源于这里

Openclaw 不是“下载即用”的工具，它的安装过程本质是一次系统能力测绘。很多用户反馈“make build 失败”“运行时报 namespace not supported”，其实问题根本不在于 Openclaw 本身，而在于你的系统没通过这五道关卡。我整理了近三个月社区 Issue 中 Top 5 的安装失败原因，全部对应到以下检查项。请逐条执行，不要跳过任何一步。

2.1 检查内核版本与命名空间支持

Openclaw 的核心隔离能力依赖 Linux kernel 的 user namespace 和 uts namespace。低于 4.18 的内核虽支持，但存在已知的unshare --user权限提升漏洞，因此 Openclaw 显式拒绝启动。执行：

uname -r

确认输出为5.14.0-xxx或更高（CentOS Stream 9）、6.5.0-xxx或更高（Ubuntu 22.04）。若低于此版本，请升级内核或改用容器化部署方案（后文详述）。

接着验证 user namespace 是否启用：

# 检查内核参数 zcat /proc/config.gz 2>/dev/null | grep CONFIG_USER_NS || cat /boot/config-$(uname -r) | grep CONFIG_USER_NS

应返回CONFIG_USER_NS=y。若为=n或无输出，说明内核编译时禁用了该功能，需重新编译内核或更换发行版。

最后实测创建 user namespace：

unshare --user --pid --fork --mount-proc /bin/bash -c 'echo "User NS OK"; ps aux'

若成功打印进程列表，说明通过；若报错unshare: unshare failed: Invalid argument，请检查/proc/sys/user/max_user_namespaces是否为 0：

cat /proc/sys/user/max_user_namespaces # 若为 0，临时启用： echo 10000 > /proc/sys/user/max_user_namespaces # 永久生效需写入 /etc/sysctl.conf： echo "user.max_user_namespaces = 10000" >> /etc/sysctl.conf sysctl -p

2.2 验证 cgroup v2 是否启用并挂载

Openclaw 使用 cgroup v2 控制 CPU、内存资源配额，v1 已被明确弃用。执行：

mount | grep cgroup

正确输出应包含类似：

cgroup2 on /sys/fs/cgroup type cgroup2 (rw,nosuid,nodev,noexec,relatime,nsdelegate)

若只看到cgroup on /sys/fs/cgroup type tmpfs（v1），说明系统仍使用旧版。Ubuntu 22.04 默认启用 v2，但若你手动修改过 GRUB 参数，可能被覆盖。检查/etc/default/grub中GRUB_CMDLINE_LINUX是否包含systemd.unified_cgroup_hierarchy=1，若无，请添加并更新 GRUB：

sed -i 's/GRUB_CMDLINE_LINUX="/GRUB_CMDLINE_LINUX="systemd.unified_cgroup_hierarchy=1 /' /etc/default/grub update-grub && reboot

CentOS Stream 9 默认启用 v2，但需确认/sys/fs/cgroup是否可写：

touch /sys/fs/cgroup/test && rm /sys/fs/cgroup/test 2>/dev/null && echo "cgroup v2 writable" || echo "cgroup v2 read-only"

若提示 read-only，请检查 systemd 版本是否 ≥ 249（systemd --version），否则需升级。

2.3 检查 procfs 挂载选项与稳定性

Openclaw 在隔离环境中需读取/proc/[pid]/status、/proc/[pid]/cmdline等文件判断进程状态。某些精简版系统（如 Alpine 容器、CoreOS）会以hidepid=2挂载 procfs，导致子进程无法访问父进程信息。执行：

findmnt -t proc

检查OPTIONS列是否包含hidepid=0。若为hidepid=2，需修改/etc/fstab或启动参数。临时修复：

mount -o remount,hidepid=0 /proc

更关键的是验证 procfs 是否在 namespace 内可见：

unshare --user --pid --fork --mount-proc /bin/bash -c 'ls /proc/1/status 2>/dev/null && echo "proc visible in ns" || echo "proc hidden"'

若提示No such file or directory，说明 procfs 未在新 namespace 中正确挂载，Openclaw 启动时将无法获取进程元数据，直接 panic。

2.4 验证 Rust 工具链版本与组件完整性

Openclaw 使用 Rust 编写，但官方不提供预编译包（除 x86_64 Linux 外），因此源码编译是主流方式。Rust 版本必须 ≥ 1.75（2023年12月发布），因clapv4.4+ 引入了derivemacro 的新 trait bound。执行：

rustc --version cargo --version

若rustc版本低于 1.75，请用 rustup 升级：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y source $HOME/.cargo/env rustup update

重点检查cargo是否安装了rust-src组件（编译时需解析标准库源码）：

rustup component list | grep installed | grep "rust-src" # 若无输出，安装： rustup component add rust-src

此外，llvm-tools-preview组件用于生成更优的二进制体积（Openclaw release 版本大小约 8.2MB，若缺失此组件，可能膨胀至 14MB+，影响嵌入式场景）：

rustup component add llvm-tools-preview

2.5 检查系统时间同步与证书信任链

Openclaw 在首次运行时会向api.openclaw.dev（仅用于匿名 telemetry opt-in，可关闭）发起 HTTPS 请求校验 license key 格式。若系统时间偏差 > 5 分钟，TLS 握手将失败并阻塞启动；若 CA 证书过期（常见于离线环境或自建 CA），也会报SSL certificate problem: unable to get local issuer certificate。验证方式：

# 时间偏差检查 ntpdate -q pool.ntp.org 2>/dev/null | grep offset | awk '{print $NF}' | sed 's/s$//' | awk '{if ($1 > 5 || $1 < -5) print "TIME OFFSET CRITICAL:", $1, "s"; else print "Time OK"}' # 证书链检查 curl -I https://api.openclaw.dev 2>/dev/null | head -1 | grep "200 OK" >/dev/null && echo "HTTPS OK" || echo "HTTPS FAILED - check time & certs"

若失败，请先运行timedatectl set-ntp true启用 NTP，并更新 CA 证书：

# Ubuntu/Debian apt update && apt install -y ca-certificates && update-ca-certificates # CentOS/RHEL yum update -y ca-certificates && update-ca-trust

注意：以上五项检查必须全部通过才能进入编译环节。我在客户现场曾遇到一台物理服务器，uname -r显示 5.15.0，但unshare --user失败，最终发现是 BIOS 中禁用了 Intel VT-x 的 “Virtualization Technology for Directed I/O (VT-d)” 选项——这个硬件级开关会影响 user namespace 的底层实现。所以，“系统健康检查”不是形式主义，而是 Openclaw 运行的基石。

3. 三种安装方式深度对比：从源码编译到容器化部署的取舍逻辑

Openclaw 官方提供了三种安装路径：源码编译（推荐）、预编译二进制（便捷）、Docker 镜像（隔离）。但每种方式背后都有明确的适用边界和隐藏成本。我用一张表总结它们在真实生产环境中的表现差异，再逐条拆解选择逻辑。

维度	源码编译（`make build`）	预编译二进制（`curl + chmod`）	Docker 镜像（`docker run`）
启动速度	首次编译 3~8 分钟，后续`make install`< 10 秒	下载 8MB + 解压 < 3 秒	首次拉取镜像 50MB + 启动 < 5 秒
系统侵入性	无全局依赖，二进制静态链接	无依赖，但需手动管理 PATH	零侵入，完全隔离
调试能力	可加`--debug`输出完整 trace，支持`gdb`附加	仅`--verbose`，无符号表，无法 gdb	需`docker exec -it`进入容器，调试链路长
cgroup v2 兼容性	编译时自动检测，失败则报错提示	二进制针对 Ubuntu 22.04/CentOS 9 构建，其他系统可能 segfault	镜像内嵌轻量 Alpine，cgroup 兼容性由 Docker daemon 保证
更新维护成本	`git pull && make build`即可，但需重编译	`curl -L https://.../openclaw-v0.8.3-x86_64-linux-gnu -o /usr/local/bin/openclaw`	`docker pull openclaw/cli:v0.8.3`，但需管理镜像生命周期
适用场景	开发者、SRE、需定制功能（如添加私有插件）	运维工程师日常巡检、CI/CD 流水线中临时调用	安全合规要求高、多租户共享环境、不可信脚本执行沙箱

3.1 源码编译：为什么这是“最麻烦却最值得”的选择？

很多人看到make build就放弃，觉得“不就一个 CLI 工具吗，何必折腾”。但 Openclaw 的设计哲学决定了：只有源码编译，才能获得完整的可观测性和可控性。它的构建流程不是简单的cargo build，而是包含四个关键阶段：

make deps：自动检测并安装protoc（Protocol Buffers 编译器）、jq（JSON 解析）、yq（YAML 处理）等 runtime 依赖。若缺失，会清晰提示Please install yq v4.30+，而非静默失败。
make proto：将proto/目录下的.proto文件编译为 Rust 模块，生成强类型结构体。这是 Openclaw 支持复杂 YAML schema 校验的基础——比如你写timeout: 30s，它会自动转换为Duration::from_secs(30)，而非字符串拼接。
make build：调用cargo build --release --features full。fullfeature 启用所有插件（HTTP、SSH、Kubernetes、Prometheus Exporter），若你只需要 HTTP 检查，可改为--features http缩减二进制体积 35%。
make install：将编译产物复制到/usr/local/bin/openclaw，并创建/etc/openclaw/配置目录和/var/log/openclaw/日志目录，同时注册 systemd service 模板（openclaw.service.in）。

执行全流程：

# 克隆仓库（注意：必须用 --recursive 获取 submodule） git clone --recursive https://github.com/openclaw/openclaw.git cd openclaw # 执行四步构建 make deps make proto make build sudo make install # 验证安装 openclaw --version # 输出：openclaw 0.8.3 (commit: abc1234, built: 2024-06-15T10:23:45Z) # 查看内置帮助 openclaw help

实操心得：make build阶段若卡在Compiling tokio-metrics v0.1.0超过 5 分钟，大概率是网络问题导致crates.io依赖下载慢。此时可配置 cargo 镜像源（如清华源）：
mkdir -p ~/.cargo echo '[source.crates-io] replace-with = "tuna" [source.tuna] registry = "https://mirrors.tuna.tsinghua.edu.cn/crates.io-index"' > ~/.cargo/config.toml

3.2 预编译二进制：何时该用？如何避免“下载即失效”陷阱？

预编译包适合快速验证或 CI/CD 场景，但有两个致命陷阱常被忽略：

陷阱一：架构硬编码。官方发布的openclaw-v0.8.3-x86_64-linux-gnu仅支持 glibc ≥ 2.31 的系统。在 CentOS 7（glibc 2.17）上直接运行会报./openclaw: /lib64/libc.so.6: version 'GLIBC_2.31' not found。解决方案：用ldd ./openclaw检查依赖，若提示缺失，改用 musl 静态链接版（openclaw-v0.8.3-x86_64-unknown-linux-musl），它不依赖系统 glibc。

陷阱二：SHA256 校验缺失。很多教程直接curl | bash，但官方从未提供签名机制。我建议始终下载后校验：

# 下载二进制和 SHA256 清单 curl -L https://github.com/openclaw/openclaw/releases/download/v0.8.3/openclaw-v0.8.3-x86_64-linux-gnu -o openclaw curl -L https://github.com/openclaw/openclaw/releases/download/v0.8.3/SHA256SUMS -o SHA256SUMS # 校验 sha256sum -c SHA256SUMS 2>/dev/null | grep "openclaw.*OK" && echo "Verified" || echo "Corrupted!" # 安装 sudo install -m 0755 openclaw /usr/local/bin/openclaw

3.3 Docker 镜像部署：不只是“换个方式运行”，而是重构执行模型

Docker 方式看似简单，但实际改变了 Openclaw 的运行范式。关键区别在于：容器内 Openclaw 默认以 root 用户运行，且无法直接访问宿主机的 cgroup v2 控制器。这意味着你写的resources: {cpu: "500m", memory: "512Mi"}会被 Docker daemon 转换为--cpus 0.5 --memory 512m，而非 Openclaw 原生的 cgroup 接口。

要真正发挥 Openclaw 的资源控制能力，必须以特权模式运行并挂载宿主机 cgroup：

docker run -it \ --rm \ --privileged \ --pid=host \ --cgroup-parent=/openclaw \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v $(pwd):/workspace \ -w /workspace \ openclaw/cli:v0.8.3 \ openclaw run health-check.ocl

但这带来安全风险。更合理的做法是：用 Docker 运行 Openclaw 的“调度器”角色，而将具体执行任务交给宿主机上的 Openclaw Agent。官方推荐的混合架构如下：

宿主机安装 Openclaw（源码编译），作为 agent 监听/var/run/openclaw.sock；
Docker 容器运行openclaw scheduler，通过 Unix socket 向 agent 下发任务；
agent 在宿主机 namespace 中执行，scheduler 在容器中提供 Web UI 和 API。

这种模式既保留了容器的隔离性，又获得了宿主机的资源控制精度。部署脚本已集成在deploy/docker-compose.yml中，只需docker-compose up -d即可启动全套服务。

踩坑记录：某金融客户曾用docker run --network host方式让 Openclaw 访问内网服务，结果发现--network host会禁用容器的 network namespace，导致 Openclaw 无法创建隔离的网络环境进行端口探测。正确做法是用--network bridge+--add-host添加内网 DNS 记录。

4. 从零编写第一个 Openclaw 流程：一个真实可用的磁盘巡检案例

安装只是起点，真正体现 Openclaw 价值的是如何把它用起来。我们以一个高频刚需场景为例：每日凌晨 2 点自动巡检 5 台生产服务器的磁盘使用率，当任一节点/分区使用率 ≥ 90% 时，发送企业微信告警并触发清理脚本。这个需求看似简单，但 Shell 脚本往往写成“if [ $(df / | awk 'NR==2 {print $5}' | sed 's/%//') -gt 90 ]; then ...”，存在严重缺陷：df输出格式随 locale 变化、awk NR==2在多挂载点时不可靠、错误处理缺失。

Openclaw 的 YAML 流程则天然规避这些问题。下面是我的实操步骤，每一步都附带原理说明和避坑点。

4.1 创建项目结构与基础配置

首先建立工作目录，遵循 Openclaw 推荐的工程结构：

mkdir -p disk-monitor/{flows,scripts,configs} cd disk-monitor

flows/：存放.ocl流程定义文件（YAML 格式）
scripts/：存放被调用的清理脚本（Bash/Python）
configs/：存放连接配置（如 SSH 密钥、API Token）

创建全局配置configs/global.yaml，定义通用参数：

# configs/global.yaml # Openclaw 全局配置，所有流程自动加载 defaults: timeout: 30s retry: 2 on_failure: "notify-failure" variables: # 从环境变量注入，便于 CI/CD 注入密钥 WECHAT_WEBHOOK: "${WECHAT_WEBHOOK:-https://qyapi.weixin.qq.com/xxx}" SSH_USER: "${SSH_USER:-admin}" NODES: - "192.168.1.101" - "192.168.1.102" - "192.168.1.103" - "192.168.1.104" - "192.168.1.105"

原理说明：Openclaw 的variables支持${VAR_NAME:-default}语法，优先读取环境变量，不存在则用默认值。这比硬编码在 YAML 里安全得多，也方便不同环境（测试/生产）共用同一份流程。

4.2 编写核心巡检流程`flows/disk-check.ocl`

这是整个项目的灵魂。我们用 Openclaw 的ssh插件连接服务器，用shell插件执行命令，用jsonpath插件解析 JSON 输出（df命令本身不输出 JSON，但我们可以用df -P -x tmpfs | awk '{print "{\"device\":\""$1"\",\"mounted\":\""$6"\",\"use_percent\":"$5"}"}' | jq -s '.'转换）。

# flows/disk-check.ocl name: "Disk Usage Monitor" description: "Check root partition usage across production nodes" # 定义输入参数，支持命令行覆盖 inputs: - name: "threshold" type: "integer" default: 90 description: "Alert when usage >= this percent" # 主流程：遍历所有节点 steps: - name: "connect-to-node" plugin: "ssh" config: host: "{{ .node }}" user: "{{ .config.SSH_USER }}" identity_file: "{{ .config.ssh_key_path | default './configs/id_rsa' }}" # 动态生成 node 列表，支持并行 foreach: "{{ .config.NODES }}" # 为每个节点设置局部变量 variables: node: "{{ .item }}" - name: "get-disk-usage" plugin: "shell" config: command: | df -P -x tmpfs | awk '$6 == "/" {print "{\"device\":\""$1"\",\"mounted\":\""$6"\",\"use_percent\":"$5"}"}' | jq -s '.' # 捕获 stdout 为 JSON 对象 output_format: "json" # 依赖上一步的 ssh 连接 depends_on: ["connect-to-node"] - name: "parse-root-usage" plugin: "jsonpath" config: # 从上一步 JSON 中提取 root 分区的 use_percent expression: "$[?(@.mounted == '/')].use_percent | first" # 将结果存入变量供后续判断 output_var: "root_usage_percent" depends_on: ["get-disk-usage"] - name: "check-threshold" plugin: "condition" config: # 使用 Go template 语法比较 if: "{{ .root_usage_percent | int | ge .inputs.threshold }}" # 满足条件时执行分支 on_true: - "send-alert" - "cleanup-disk" # 不满足时记录日志 on_false: - "log-ok" depends_on: ["parse-root-usage"] # 告警分支 - name: "send-alert" plugin: "http" config: method: "POST" url: "{{ .config.WECHAT_WEBHOOK }}" headers: Content-Type: "application/json" body: | { "msgtype": "text", "text": { "content": "⚠️ Disk Alert: Node {{ .node }} root usage is {{ .root_usage_percent }}% (threshold: {{ .inputs.threshold }}%)" } } # 设置超时，避免告警失败阻塞主流程 timeout: 10s # 清理分支 - name: "cleanup-disk" plugin: "shell" config: # 调用本地脚本，传入节点 IP command: "./scripts/cleanup.sh {{ .node }}" # 脚本需有执行权限 shell: "/bin/bash" # 正常日志分支 - name: "log-ok" plugin: "log" config: level: "info" message: "Node {{ .node }} root usage: {{ .root_usage_percent }}% — OK" # 全局错误处理 on_failure: - name: "notify-failure" plugin: "log" config: level: "error" message: "Flow failed at step '{{ .failed_step }}' with error: {{ .error }}"

关键细节解析：
foreach指令让 Openclaw 自动为NODES列表中的每个 IP 启动一个独立执行上下文，所有{{ .node }}变量在该上下文中有效。这比 Shell 的for ip in ${NODES[@]}; do ... done更可靠，因为每个上下文有独立的 namespace 和 timeout。
jsonpath插件的expression使用$[?(@.mounted == '/')].use_percent | first，其中first是 Openclaw 扩展函数，确保即使df输出多行，也只取第一个匹配项，避免jq报错。
condition插件的if字段使用 Go template 语法，int函数将字符串"92"转为整数92，ge是 “greater than or equal” 的缩写，比写>=更安全（避免 YAML 解析歧义）。

4.3 编写清理脚本`scripts/cleanup.sh`

这是一个 Bash 脚本，但被 Openclaw 在隔离环境中调用。关键是要让它能被 Openclaw 正确捕获输出和退出码：

#!/bin/bash # scripts/cleanup.sh # Openclaw 要求：脚本必须返回 0 表示成功，非 0 表示失败 NODE=$1 echo "Starting cleanup on $NODE..." # 1. 清理 /tmp 下 7 天前的文件 ssh "$NODE" "find /tmp -type f -mtime +7 -delete 2>/dev/null || true" # 2. 清理 journal 日志（保留最近 3 天） ssh "$NODE" "journalctl --disk-usage; journalctl --vacuum-time=3d" # 3. 检查清理后空间 USAGE=$(ssh "$NODE" "df -P / | awk 'NR==2 {print \$5}' | sed 's/%//'") echo "After cleanup, root usage on $NODE: ${USAGE}%" # 如果仍 ≥ 90%，返回 1 触发重试（Openclaw 会按 retry: 2 执行） if [ "$USAGE" -ge "90" ]; then echo "Cleanup insufficient: usage still ${USAGE}%" exit 1 else echo "Cleanup successful" exit 0 fi

赋予执行权限：

chmod +x scripts/cleanup.sh

4.4 运行与调试：如何读懂 Openclaw 的日志输出

现在可以运行流程了。首次运行建议加--verbose查看详细日志：

openclaw run flows/disk-check.ocl --verbose --inputs threshold=90

典型输出片段：

[INFO] Starting flow "Disk Usage Monitor" with inputs: threshold=90 [DEBUG] Step "connect-to-node": connecting to 192.168.1.101 as admin... [DEBUG] Step "get-disk-usage": executing command on 192.168.1.101... [DEBUG] Step "get-disk-usage": stdout: [{"device":"/dev/sda1","mounted":"/","use_percent":"85"}] [DEBUG] Step "parse-root-usage": jsonpath result: "85" [INFO] Step "log-ok": Node 192.168.1.101 root usage: 85% — OK [DEBUG] Step "connect-to-node": connecting to 192.168.1.102 as admin... [DEBUG] Step "get-disk-usage": stdout: [{"device":"/dev/nvme0n1p1","mounted":"/","use_percent":"93"}] [DEBUG] Step "parse-root-usage": jsonpath result: "93" [INFO] Step "send-alert": POST to https://qyapi.weixin.qq.com/xxx -> 200 OK [INFO] Step "cleanup-disk": executing ./scripts/cleanup.sh 192.168.1.102... [ERROR] Step "cleanup-disk": exit code 1, stdout: "Cleanup insufficient: usage still 91%" [INFO] Retrying step "cleanup-disk" (attempt 1/2)...

实操技巧：Openclaw 的日志级别非常精细。--verbose显示 DEBUG 级别，能看到每个 step 的输入输出；--quiet只显示 ERROR；若想追踪某个 step 的完整执行环境，可在该 step 中加入debug: true配置，它会 dump 出当前所有变量和上下文。

5. 生产环境部署与长期运维：从单机巡检到集群调度的演进路径

当 Openclaw 在单台机器上稳定运行后，下一步是规模化。很多团队卡在“如何让 Openclaw 在 100+ 节点上可靠执行”，其实问题不在 Openclaw 本身，而在部署架构的设计。我基于三个客户的落地经验，总结出一条渐进式演进路径：单机 CLI → Agent 模式 → Scheduler 集群 → SaaS 化集成。每一步都对应明确的运维痛点和解决方案。

5.1 单机 CLI 模式：适合 ≤ 10 节点，但必须解决密钥分发问题

这是最原始的方式：在运维机上装 Openclaw，所有 SSH 连接用同一把私钥。但当节点数超过 10，密钥轮换就成了噩梦——你不能让 100 台机器同时 reload SSH 服务。Openclaw 提供了两种密钥管理方案：

SSH Agent 转发：在运维机启动ssh-agent，ssh-add加载私钥，然后在flows/*.ocl中配置forward_agent: true。Openclaw 会自动将 agent socket 传递给目标节点，无需在目标节点存储私钥。
```
# 在 ssh 插件配置中 config: host: "{{ .node }}" user: "{{ .config.SSH_USER }}" forward_agent: true # 关键！
```
Vault 集成：Openclaw 原生支持 HashiCorp Vault。在configs/global.yaml中配置 Vault 地址和 token，然后在流程中用{{ vault "secret/data/ssh-keys/prod" "private_key" }}动态获取密钥。
```
# configs/global.yaml secrets: vault: address: "https://vault.internal:8200" token: "${VAULT_TOKEN}"
```
这样，私钥永远不落地，每次执行都实时拉取，且 Vault 可审计谁在何时调用了哪个密钥。

5.2 Agent 模式：解决大规模并发与资源隔离

当节点数达到 50+，单机 CLI 的瓶颈凸显：CPU 和内存占用飙升，ssh连接数过多导致Too many open files错误。此时应切换为Agent 模式：在每台目标节点上部署一个轻量 Openclaw Agent（约 3MB），它监听本地 Unix socket，接收来自中央 Scheduler 的任务指令。

部署 Agent 的命令极其简洁：