当前位置：首页 > news >正文

Hermes Agent 部署避坑指南：从安装失败到多平台网关实战

news 2026/6/16 15:54:53

1. 项目概述：这不是又一个“装完就卡”的AI工具，而是一套能立刻上手的智能体工作流

Hermes Agent 这个名字最近在技术圈里刷屏了，但很多人点开官网、复制粘贴几行命令后，发现终端里只回了一句“No inference provider configured”，或者安装完桌面版双击没反应，又或者在 Windows 上跑hermes model时卡死在uv package manager的下载环节——这根本不是你操作错了，而是官方 Quickstart 文档里那句轻描淡写的“Runhermes model”背后，藏着至少三层隐性门槛：环境依赖链是否完整、API 凭据是否被正确写入隔离文件、模型上下文窗口是否满足最低 64K token 的硬性要求。我去年帮三个创业团队落地 Hermes，从 macOS 开发者笔记本、Windows 10 企业版办公机，到飞牛云 FNoS 系统上的 Docker 容器，踩过的坑比读过的文档还多。所谓“5分钟从安装到聊起来”，真实含义是：前3分钟解决环境和凭据，后2分钟验证对话闭环是否真正打通。它不承诺“一键万能”，但保证“每一步失败都有明确归因”。适合三类人：刚接触智能体概念的非程序员（比如产品经理想快速试用 Claude 工具调用）、有 Python/Shell 基础但没部署过 LLM 服务的工程师（需要本地 Ollama 集成）、以及正在为团队搭建统一 AI 助手的 DevOps（关注 gateway 多平台接入和 config.yaml 的配置分层）。它解决的核心问题不是“能不能调大模型”，而是“当用户说‘帮我查下昨天会议纪要里提到的 API 文档链接’时，系统能否自动读取本地文件 + 调用浏览器插件 + 摘取关键段落并生成摘要”——这种多跳、带状态、需工具协同的对话，才是 Hermes 的设计原点。如果你还在用 ChatGPT 网页版复制粘贴日志、用 Copilot 插件零散处理代码片段，那 Hermes 就是你该切换的下一个工作界面。

2. 核心设计逻辑：为什么必须拆解成“安装-选 Provider-首聊-续会话”四步闭环

2.1 安装阶段的底层逻辑：桌面版与 CLI 的本质差异不是界面，而是沙箱边界

很多人以为“Hermes Desktop”只是给 CLI 加了个图形外壳，实则完全错误。桌面版安装器（macOS 的.pkg/ Windows 的.exe）在静默执行时，会同时完成三件 CLI 安装器做不到的事：第一，自动创建独立的~/.hermes配置根目录，并设置严格的文件权限（macOS 下为700，Windows 下禁用继承权限），防止其他进程误读.env；第二，预编译并缓存uv的 wheel 包到~/.hermes/cache/uv/，绕过国内网络对 PyPI 的不稳定连接——这正是你在 PowerShell 里执行iex (irm ...)卡在uv package manager的根本原因；第三，注册系统级服务：macOS 自动启用launchd后台守护进程监听hermes gateway，Windows 则创建hermes-agent-service服务，确保关机重启后 gateway 仍存活。而纯 CLI 安装（curl | bash或install.ps1）只做最简依赖注入：它把hermes-agent代码克隆到~/.hermes/hermes-agent，用uv venv创建虚拟环境，再pip install -e .安装可编辑包。好处是路径透明、便于调试；坏处是每次hermes update都要重新编译 C 扩展（如tokenizers），且uv本身需从源码构建，在 M1 Mac 上平均耗时 4 分钟。我实测过：同一台 M2 MacBook Pro，桌面版安装耗时 82 秒（含 GUI 渲染），CLI 安装平均 217 秒（网络波动时超 5 分钟）。所以我的建议非常明确：个人开发首选桌面版，团队部署用 CLI。前者省时间，后者控版本——因为桌面版更新依赖自动推送，而 CLI 可通过hermes update --version 0.9.4锁定特定 commit，避免某次hermes model交互式菜单突然改版导致脚本失效。

2.2 Provider 选择的决策树：64K context 不是性能参数，而是工作流安全阈值

官方文档强调“Minimum context: 64K tokens”，但没说清为什么是 64K 而非 32K。这里涉及 Hermes 的核心架构设计：它的会话状态管理不是靠外部数据库，而是将整个对话历史（含工具调用返回、文件内容摘要、网页抓取结果）以结构化 JSON 形式注入模型上下文。当用户问“对比 A.py 和 B.py 的函数命名规范”，Hermes 必须同时载入两个文件全文（假设各 15KB）+ 当前对话指令（2KB）+ 工具调用模板（3KB）= 至少 35KB。若模型仅支持 32K，系统会在 token 计数器达到阈值时强制截断早期对话，导致后续提问“刚才说的 A.py 第三行是什么？”时，模型已丢失该上下文，只能胡编乱造。这就是为什么hermes model交互式菜单中，当你选择 Ollama 时，它会强制要求你输入--ctx-size 65536参数，否则拒绝保存配置。更隐蔽的陷阱在于 API 提供商的“名义上下文”与“实际可用上下文”差异：Anthropic 的 Claude Opus 宣称 200K，但实测在 Hermes 中稳定使用需预留 10% 缓冲（即设为anthropic/claude-opus-4.6:200000）；而 OpenRouter 的某些小众模型虽标称 128K，但其路由网关存在 token 计数 bug，实际触发截断在 98K 左右。我的经验是：首次配置永远选Nous Portal。它不是因为模型最强，而是因为其订阅制消除了所有密钥管理复杂度——OAuth 登录后，.env文件里只有一行NOUS_PORTAL_TOKEN=xxx，且该 token 自动轮转，无需你操心过期重置。相比之下，手动配置 Anthropic API Key 需额外设置ANTHROPIC_API_KEY和ANTHROPIC_BASE_URL（国内需填代理地址），稍有不慎就会在hermes doctor中报错HTTP 401 Unauthorized。记住这个铁律：Provider 配置成功的唯一标志，不是hermes model显示“Saved”，而是hermes --tui启动后 Banner 里明确写出Model: anthropic/claude-opus-4.6 (200000)——括号里的数字必须是你设定的值，否则上下文截断风险始终存在。

2.3 首聊验证的隐藏检查点：Banner 信息比回复内容更重要

很多新手看到 Hermes 终端里出现回复就以为成功了，其实大错特错。真正的验证必须盯住启动 Banner 的四个字段：

Model 字段：确认显示的是你通过hermes model选定的完整标识符，如anthropic/claude-opus-4.6，而非默认的openai/gpt-4o；
Tools 字段：应列出terminal, file_read, web_search等基础工具，若为空或仅显示none，说明hermes tools未启用对应平台权限；
Skills 字段：显示k8s, github, docker等技能名，证明~/.hermes/skills/目录已正确挂载；
Profile 字段：显示default或你自定义的 profile 名，这是会话隔离的关键——不同 profile 使用独立的config.yaml和.env。

我曾遇到一个典型故障：用户在 Windows 上用管理员权限运行hermes setup，但日常开发在普通用户账户下启动hermes --tui，结果 Banner 显示Profile: admin，而普通用户目录下根本没有~/.hermes，导致所有配置丢失。解决方案是统一用hermes config set profile default强制指定。另一个致命细节是hermes --tui的终端兼容性：VS Code 内置终端默认不发送Shift+Enter作为换行符，导致多行输入失效。必须在 VS Code 设置中搜索terminal.integrated.sendKeybindingsToShell并设为true，或直接改用 Kitty 终端（其键盘协议原生支持）。验证首聊的黄金测试题不是“你好”，而是：“请读取当前目录下的README.md文件，提取第三段的前两句话，并用中文总结其核心功能”。这个指令同时触发file_read工具调用、上下文注入、多跳推理三个关键链路。若回复中包含准确的原文摘录和合理总结，说明整个数据通路已贯通；若报错Permission denied，则是文件权限问题（Linux/macOS 需chmod 644 README.md）；若返回File not found，说明 Hermes 当前工作目录并非你预期的项目根目录——此时需用hermes config set terminal.cwd /path/to/your/project固定路径。

2.4 会话续连的存储机制：`--continue`不是读取历史，而是恢复内存快照

hermes --continue命令常被误解为“加载聊天记录”，实则它是 Hermes 最精妙的设计之一：它不从磁盘读取文本日志，而是反序列化一个二进制会话快照（~/.hermes/sessions/*.session）。这个快照包含三类数据：第一，完整的对话树（含每轮消息的 role/content/tool_calls）；第二，工具调用的实时状态（如web_search返回的 HTML DOM 结构、terminal执行的进程 PID）；第三，模型推理的中间缓存（KV Cache 的压缩表示）。这意味着hermes --continue恢复的不是“对话文本”，而是“对话现场”——你可以中断web_search后继续追问“把刚才搜到的 GitHub 链接里的 PR 描述也读出来”，系统会直接复用已抓取的 HTML，无需二次请求。但这也带来严格约束：快照文件必须与当前 Hermes 版本兼容。0.9.x 生成的 session 在 0.10.0 中可能无法加载，报错Incompatible version: expected 0.10, got 0.9。因此我的实操建议是：永远在升级前执行hermes sessions export --all备份所有 session，导出为 JSONL 格式（每行一个会话），这样即使版本不兼容也能人工解析。另一个常见误区是认为--continue会自动切换到最新 session——实际上它按文件修改时间排序，若你同时在多个终端运行 Hermes，可能恢复的是隔壁同事的 session（当共享同一 profile 时）。安全做法是先运行hermes sessions list，查看输出中的ID列（如sess_abc123），再显式执行hermes --continue sess_abc123。对于团队协作，我强制要求所有成员在~/.hermes/config.yaml中添加：

session: auto_save: true max_age_days: 7 backup_dir: "/path/to/team-shared-backups"

这样每天凌晨自动归档 session 到共享目录，避免“重要会话丢失”成为项目阻塞点。

3. 实操全流程拆解：从零开始的每一步命令、参数与避坑指南

3.1 环境准备：绕过 uv 和 Rust 编译的终极方案

在 macOS 和 Linux 上，curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash是最简安装法，但它依赖系统已安装curl、bash、git、make、gcc以及 Python 3.10+。当这些条件不满足时（如某些精简版 Docker 镜像），你会卡在Building wheel for tokenizers。我的替代方案是直接使用预编译二进制：

访问 Hermes GitHub Releases 页面，下载最新版hermes-agent-v0.10.0-macos-arm64.tar.gz（M1/M2）或hermes-agent-v0.10.0-linux-x86_64.tar.gz（Intel/AMD）；
解压后进入目录，执行./hermes setup --no-install（跳过依赖安装）；
手动创建软链接：sudo ln -s $(pwd)/hermes /usr/local/bin/hermes。

Windows 用户则必须放弃 PowerShell 脚本，改用 Scoop 包管理器：

# 先安装 Scoop（若未安装） Set-ExecutionPolicy RemoteSigned -Scope CurrentUser irm get.scoop.sh | iex # 添加 extras bucket scoop bucket add extras # 安装 Hermes（自动处理 uv 和依赖） scoop install hermes-agent

Scoop 的优势在于它预编译了所有 Windows 专用 wheel（包括pywin32），且将hermes.exe注册到系统 PATH，避免install.ps1中常见的Access is denied权限错误。对于飞牛云 FNoS 系统（基于 Debian 的嵌入式 OS），由于缺少glibc2.31+，标准二进制会报错GLIBC_2.31 not found。此时必须用docker run --rm -v $(pwd):/workspace -w /workspace python:3.11-slim bash -c "pip install hermes-agent && hermes setup"在容器内安装，再将生成的~/.hermes目录拷贝回宿主机。注意：FNoS 的 Docker 默认禁用--privileged，需在/etc/docker/daemon.json中添加"default-ulimits": {"nofile": {"Name": "nofile", "Hard": 65536, "Soft": 65536}}并重启 Docker 服务，否则hermes gateway会因文件描述符不足崩溃。

3.2 Provider 配置实战：Claude 与 Ollama 的双轨配置法

以 Anthropic Claude 为例，手动配置需四步：

获取 API Key：登录 Anthropic Console ，创建新 Key，勾选messages权限；
设置环境变量：在终端执行echo "ANTHROPIC_API_KEY=sk-ant-api03-xxx" >> ~/.hermes/.env；
配置模型标识：hermes config set model anthropic/claude-opus-4.6；
验证上下文：hermes config set model_context_size 200000（必须显式设置，否则默认 8192）。

但更推荐用hermes model交互式配置，因为它会自动检测环境：当检测到ANTHROPIC_API_KEY已存在，它会跳过密钥输入，直接让你选择模型版本。Ollama 的配置则更复杂，因其需区分“模型拉取”和“服务启动”：

先在终端运行ollama run llama3:70b拉取模型（耗时约 15 分钟，需 20GB 磁盘空间）；
再执行ollama serve启动服务（默认监听http://127.0.0.1:11434）；
最后配置 Hermes：hermes config set model ollama/llama3:70b，并hermes config set ollama.base_url http://127.0.0.1:11434。

关键避坑点：Ollama 的base_url不能加/api/chat后缀，否则 Hermes 会拼成http://127.0.0.1:11434/api/chat/api/chat导致 404。另一个陷阱是 Windows 上 Ollama 服务默认绑定127.0.0.1，而 Hermes CLI 可能尝试连接localhost，DNS 解析失败。解决方案是：hermes config set ollama.base_url http://127.0.0.1:11434，并确保hosts文件中127.0.0.1 localhost未被注释。对于本地模型，我强制要求所有团队成员在config.yaml中添加：

model: fallback: anthropic/claude-haiku-4.6 # 当 Ollama 崩溃时自动降级 timeout: 120 # 防止 llama3 响应慢导致整个会话卡死

这样即使 Ollama 服务宕机，Hermes 仍能通过 Claude Haiku 继续提供基础服务。

3.3 首聊与工具启用：让`terminal`和`file_read`真正生效的三重校验

运行hermes --tui后，若 Banner 中Tools显示为空，说明工具未启用。必须执行：

hermes tools enable terminal file_read web_search

但这只是第一步。第二步是校验工具权限：terminal工具需 Hermes 有执行 shell 命令的权限。在 macOS 上，首次运行hermes时系统会弹窗询问“是否允许 Hermes 访问终端”，必须点“好”；若错过此弹窗，需在“系统设置 > 隐私与安全性 > 完全磁盘访问”中手动添加hermes应用。Linux 用户需确保当前用户在docker组中（sudo usermod -aG docker $USER），否则terminal.backend docker会报错permission denied while trying to connect to the Docker daemon socket。第三步是验证file_read的路径白名单：Hermes 默认只允许读取当前工作目录及子目录。若你想读取/Users/me/projects/下的文件，但当前在/tmp目录启动 Hermes，则需：

hermes config set file_read.whitelist '["/Users/me/projects/**/*"]'

注意：白名单必须是 JSON 数组格式，字符串需用单引号包裹，通配符**表示递归匹配。实测发现，当白名单路径含空格时（如/Users/me/My Projects/），必须 URL 编码空格为%20，否则解析失败。我的标准化流程是：在项目根目录下创建.hermes-init.sh，内容为：

#!/bin/bash hermes config set terminal.cwd "$(pwd)" hermes config set file_read.whitelist "[\"$(pwd)/**/*\"]" hermes tools enable terminal file_read

每次进入新项目，只需运行source .hermes-init.sh，一劳永逸。

3.4 Gateway 多平台接入：Telegram Bot 的 5 分钟极简部署

hermes gateway setup是最易出错的环节。以 Telegram 为例，完整流程如下：

创建 Bot：在 Telegram 中搜索@BotFather，发送/newbot，按提示命名，获得 Token（形如1234567890:ABCdefGhIJKlmNoPQRstUvwXYZ）；
配置 Hermes：运行hermes gateway setup，选择Telegram，粘贴 Token；
设置 Webhook：Hermes 会自动生成一个随机端口（如8080）和路径（如/webhook/abc123），但公网不可访问。此时需用ngrok：
```
ngrok http 8080 --domain=your-subdomain.ngrok-free.app
```
将生成的https://your-subdomain.ngrok-free.app/webhook/abc123粘贴到hermes gateway setup的 Webhook URL 提示中；
启动服务：hermes gateway start，观察日志中是否出现Telegram webhook registered successfully。

常见故障排查：

若 Telegram 收不到消息，检查hermes gateway status输出的Webhook URL是否与ngrok地址一致；
若ngrok断开，Hermes 不会自动重连，需手动hermes gateway restart；
企业防火墙常拦截ngrok，此时改用 Cloudflare Tunnel：cloudflared tunnel --url http://localhost:8080，其域名天然免备案。

对于 Slack，关键点是 OAuth 重定向 URL 必须与 Hermes 配置完全匹配：hermes gateway setup生成的 URL 是https://your-domain.com/slack/oauth，而 Slack App 设置中需填https://your-domain.com/slack/oauth（末尾无斜杠），否则返回redirect_uri_mismatch。我的经验是：所有 gateway 配置完成后，立即在~/.hermes/config.yaml中添加gateway: {log_level: debug}，然后用hermes gateway logs实时监控，比盲猜高效十倍。

4. 高频问题排查手册：从“安装卡住”到“对话失忆”的 12 个真实故障现场

4.1 安装阶段典型故障

故障现象	根本原因	一招解决
Windows PowerShell 执行`iex (irm ...)`报错`The term 'hermes' is not recognized`	安装脚本未将`hermes`加入 PATH，或 PowerShell 执行策略阻止脚本运行	运行`Set-ExecutionPolicy RemoteSigned -Scope CurrentUser`，然后手动将`C:\Users\YourName\AppData\Local\hermes\hermes-agent`加入系统 PATH
macOS 安装后双击桌面版无响应	Gatekeeper 阻止未签名应用，或`~/.hermes`目录权限错误	在终端执行`xattr -rd com.apple.quarantine /Applications/Hermes\ Agent.app`清除隔离属性，再`chmod 700 ~/.hermes`
`curl	bash`在 Ubuntu 22.04 报错`command not found: uv`	系统缺少`uv`二进制，且`install.sh`未自动下载

4.2 Provider 配置故障

故障现象	根本原因	一招解决
`hermes model`选择 Claude 后，`hermes --tui`启动报错`API call failed after 3 retries: connection refused`	Anthropic API Key 无效，或`ANTHROPIC_BASE_URL`未设为`https://api.anthropic.com`	运行`hermes config set ANTHROPIC_BASE_URL https://api.anthropic.com`，再`hermes doctor`检查密钥有效性
Ollama 配置后，`hermes --tui`显示`Model: ollama/llama3:70b`但无响应	Ollama 服务未启动，或模型未正确加载	执行`ollama list`确认`llama3:70b`状态为`running`，若为`not loaded`则运行`ollama run llama3:70b`
`hermes model`选择 Nous Portal 后，Banner 显示`Model: nous/portal`但工具调用失败	Nous Portal 订阅未激活，或 Tool Gateway 未开启	运行`hermes setup --portal`重新登录，并在 Nous 控制台确认`Tool Gateway`开关为 ON

4.3 对话与会话故障

故障现象	根本原因	一招解决
`hermes --continue`报错`No session found`	当前 profile 与创建 session 的 profile 不同，或 session 文件被误删	运行`hermes sessions list --profile all`查看所有 profile 的 session，再用`hermes --continue --profile other_profile sess_id`指定
首聊正常，但第二轮提问时模型“忘记”之前内容	`config.yaml`中`session.max_length`设为过小值（如 10），导致历史被截断	`hermes config set session.max_length 50`（默认 20，建议设为 50 以保安全）
`hermes --tui`中`Alt+Enter`无法换行	终端不支持该快捷键，或键盘布局冲突	在 Kitty 终端中，按`Ctrl+Shift+Enter`；在 VS Code 中，按`Ctrl+Enter`并确保`terminal.integrated.sendKeybindingsToShell`为`true`

4.4 Gateway 故障

故障现象	根本原因	一招解决
Telegram Bot 收到消息但无回复	Hermes Gateway 未监听 Telegram Webhook，或`hermes gateway start`未运行	运行`hermes gateway status`，确认`Telegram`状态为`active`，若为`inactive`则`hermes gateway start`
Slack App 安装后，点击 “Add to Slack” 无反应	Slack App 的 Redirect URL 与 Hermes 生成的不一致	运行`hermes gateway setup`重新生成 URL，并在 Slack App 设置中精确粘贴（包括末尾斜杠）
`hermes gateway logs`显示`Error: listen EADDRINUSE: address already in use :::8080`	端口 8080 被其他进程占用	运行`lsof -i :8080`找出 PID，再`kill -9 PID`，或改用`hermes gateway start --port 8081`

4.5 技能与工具故障

故障现象	根本原因	一招解决
`/k8s deploy`命令无响应	`k8s`技能未安装，或`kubectl`未在系统 PATH 中	运行`hermes skills install openai/skills/k8s`，再`which kubectl`确认路径，若不在 PATH 则`hermes config set kubectl.path /usr/local/bin/kubectl`
`file_read`读取大文件（>10MB）超时	Hermes 默认`file_read.timeout`为 30 秒，大文件解析需更长时间	`hermes config set file_read.timeout 120`
`web_search`返回空白结果	Google Custom Search API Key 无效，或搜索引擎限制 IP	运行`hermes config set web_search.engine duckduckgo`切换至 DuckDuckGo（无需 API Key）

5. 进阶配置与生产实践：config.yaml 与 claude.md 的分工哲学

5.1 config.yaml 的分层治理：为什么不能把所有配置塞进一个文件

config.yaml不是简单的参数集合，而是 Hermes 的“宪法性文件”，其设计遵循严格的分层原则：

顶层（global）：影响所有 profile 的全局设置，如log_level: info、cache_dir: ~/.hermes/cache；
中层（profile）：每个 profile 独立的配置，如model: anthropic/claude-opus-4.6、terminal.backend: docker；
底层（platform）：针对特定平台的微调，如telegram: {webhook_url: "https://..."}、slack: {bot_token: "xoxb-..."}。

这种分层解决了团队协作的核心矛盾：开发者 A 需要用本地 Ollama 调试，开发者 B 需要用 Claude 生产环境，但他们都共享同一套技能库。方案是：

在~/.hermes/config.yaml中定义 global 层；
创建~/.hermes/profiles/dev/config.yaml，覆盖model和terminal.backend；
创建~/.hermes/profiles/prod/config.yaml，覆盖model和gateway；
切换时只需hermes config set profile dev。

关键技巧：config.yaml支持 YAML 锚点复用。例如，多个 profile 都需相同file_read.whitelist，可在 global 层定义：

file_read: <<: *whitelist_defaults whitelist: &whitelist_defaults - "/home/user/projects/**/*" - "/tmp/**/*"

这样避免重复配置。而claude.md文件（位于~/.hermes/skills/claude.md）则完全不同：它不是配置文件，而是Claude 模型的专属提示词模板。当 Hermes 检测到当前模型为 Claude 时，会自动将claude.md中的内容注入 system prompt，覆盖默认的You are a helpful AI assistant。其内容通常包含：

Claude 的角色设定（如You are an expert DevOps engineer with 10 years of Kubernetes experience）；
工具调用规范（如When using terminal, always prefix commands with "RUN:" and show full output）；
输出格式约束（如Always respond in Markdown with code blocks for commands）。

这就是config.yaml和claude.md的本质分工：前者管“怎么运行”，后者管“怎么思考”。我见过太多团队把模型提示词硬编码进config.yaml，导致每次模型切换都要手动改 YAML，最终维护成本爆炸。正确做法是：为每个主力模型创建独立的.md文件（gpt.md,llama3.md），并在config.yaml中通过model.prompt_template: claude.md关联。

5.2 生产环境加固：Docker 隔离与资源限制的硬核配置

在服务器上部署 Hermes 时，绝不能裸跑。我的标准 Docker Compose 配置如下：

version: '3.8' services: hermes: image: python:3.11-slim volumes: - ./hermes-data:/root/.hermes - /var/run/docker.sock:/var/run/docker.sock # 为 terminal.backend docker 提供权限 environment: - HERMES_PROFILE=prod - ANTHROPIC_API_KEY=${ANTHROPIC_API_KEY} command: > sh -c "pip install hermes-agent && hermes setup --no-install && hermes gateway start --port 8080" ports: - "8080:8080" deploy: resources: limits: memory: 4G cpus: '2.0' reservations: memory: 2G cpus: '0.5' restart: unless-stopped

关键点解析：

volumes挂载hermes-data目录，确保配置和 session 持久化；
environment中用${ANTHROPIC_API_KEY}从.env文件注入密钥，避免硬编码；
deploy.resources限制内存为 4GB，防止 Ollama 模型吃光服务器资源；
restart: unless-stopped确保服务崩溃后自动恢复。

对于高并发场景，需启用 Hermes 的负载均衡：在config.yaml中添加：

gateway: load_balancer: enabled: true strategy: round_robin instances: - url: http://hermes-1:8080 - url: http://hermes-2:8080

然后启动两个 Hermes 实例，由 Nginx 反向代理统一入口。这样即使单个实例宕机，流量自动切到另一实例，实现 99.9% 可用性。

5.3 性能调优实战：从“很卡”到“丝滑”的 7 个参数

当用户抱怨“hermes agent 搭建后很卡”，90% 是配置不当。我的调优清单：

模型响应超时：hermes config set model.timeout 60（默认 30，大模型需延长）；
工具调用并发：hermes config set tools.max_concurrent 3（默认 1，允许多工具并行）；
会话缓存大小：hermes config set cache.session.max_size 1000（默认 100，防内存溢出）；
日志级别：hermes config set log_level warning（开发用info，生产用warning减少 I/O）；
终端后台模式：hermes config set terminal.backend docker（比subprocess更安全，资源隔离更好）；
文件读取缓冲区：hermes config set file_read.buffer_size 1048576（1MB，默认 65536，加速大文件读取）；
Webhook 验证：hermes config set gateway.webhook.verify_ssl false（内网部署时关闭 SSL 验证，省去证书配置）。