当前位置：首页 > news >正文

LiteLLM网关实现Codex CLI多模型无缝切换

news 2026/6/24 21:49:24

1. 这不是“换模型”而是重构本地编程工作流的起点

你有没有过这样的时刻：在终端里敲下codex --help，看着满屏参数却迟迟不敢执行——因为背后绑着 OpenAI 的 API Key，调一次就扣钱，写个简单脚本都要反复权衡 token 消耗；或者刚配好 Claude 的环境，发现 Codex CLI 根本不认 Anthropic 的 endpoint，硬切工具链又得重学命令、重配 IDE 插件、重写自动化脚本。这不是小问题，这是现代编程工作流里一道真实的裂缝：模型能力越来越强，但调用它的管道却越来越僵硬、越来越昂贵、越来越绑定单一服务商。

而标题里提到的 “LiteLLM + Codex CLI + Claude Code”，本质上不是拼凑三个热词，而是一次轻量级但彻底的「协议解耦」实践。LiteLLM 在这里不是简单的 API 中转层，它扮演的是本地 LLM 网关（Local LLM Gateway）的角色——把所有大模型（OpenAI、Anthropic、DeepSeek、Ollama 本地模型）统一翻译成 OpenAI 兼容的 REST 接口格式；Codex CLI 则是那个早已被验证、稳定、可嵌入 CI/CD 和日常开发流程的成熟命令行前端；Claude Code 是 Anthropic 面向代码场景深度优化的推理模型，尤其在长上下文理解、代码补全逻辑链、错误诊断还原方面有独特优势。三者组合，真正实现的是：只要手上有合法的 Anthropic API Key（甚至未来换成 DeepSeek 或本地 Qwen2.5-Coder），就能零修改地复用 Codex CLI 的全部能力，包括codex chat、codex explain、codex generate、codex test等核心指令，无需重装客户端、无需改脚本、无需动 IDE 配置。

这背后解决的，是开发者最痛的三个现实约束：

成本不可控：OpenAI 的 gpt-4-turbo 调用单价高，且 token 计费模型对长代码文件极不友好；Claude 3.5 Sonnet 在同等代码理解任务上，单位 token 成本低约 40%，且上下文窗口更大（200K），一次处理整个 Python 模块毫无压力；
协议不兼容：Codex CLI 原生只对接 OpenAI v1 API，而 Anthropic 使用完全不同的/v1/messagesendpoint、systemmessage 位置、max_tokens字段名、以及独特的stop_sequences机制；
部署不自由：想本地跑一个轻量级代码助手？Ollama 的codellama:7b或qwen2.5-coder:7b无法直接喂给 Codex CLI，因为缺少标准 OpenAI 兼容层。

所以，“有 key 即可实现编程自由”的真实含义是：Key 不再是服务厂商的准入门票，而是你自主调度算力资源的通行密钥；编程自由，不是换个模型试试看，而是让所有模型都听你 CLI 的指挥。接下来的内容，我会以一名每天用 Codex CLI 写自动化脚本、调试嵌入式固件、生成 PLC 串口协议解析器的工程师身份，带你从零开始，亲手打通这条链路——不讲虚概念，只讲实操中每一个必须踩准的点、每一个容易忽略的配置项、每一个报错背后的底层原因。

2. LiteLLM 不是“转发器”，而是你本地的模型协议翻译官

很多人第一次接触 LiteLLM，会下意识把它当成一个“API 请求转发代理”：请求进来，改个 URL，转发出去，响应回来，再改个字段名。这种理解在简单场景下能跑通，但一旦进入 Codex CLI 这类对 OpenAI API 兼容性要求极高的生产级 CLI 工具，就会频繁触发400 Bad Request、500 Internal Server Error或invalid_request_error。根本原因在于：LiteLLM 的核心价值，从来不是“转发”，而是“协议翻译”与“语义对齐”。

Codex CLI 对 OpenAI API 的依赖，远不止于/v1/chat/completions这个路径。它深度耦合了以下 OpenAI 特有语义：

Codex CLI 行为	依赖的 OpenAI API 特性	LiteLLM 必须完成的翻译动作
`codex chat --model gpt-4-turbo`	`model`字段必须是`gpt-4-turbo`字符串	将`gpt-4-turbo`映射为 Anthropic 的`claude-3-5-sonnet-20240620`，并确保 LiteLLM 启动时已加载该映射规则
`codex explain file.py`	自动构造`system`message 包含“你是一个资深 Python 工程师”等角色设定	将`system`message 提取出来，作为 Anthropic`messages[0]`的`role: "system"`，而非丢弃或塞进`user`content
`codex generate --max-tokens 512`	`max_tokens`字段控制输出长度	将`max_tokens`转译为 Anthropic 的`max_tokens`（同名但语义一致），而非错误地映射为`max_completion_tokens`（Claude v1 旧字段）
`codex test --temperature 0.2`	`temperature`控制随机性	保持`temperature`字段原样透传，Anthropic 官方文档明确支持该参数，无需转换
`codex chat --stream`	流式响应需按 SSE (Server-Sent Events) 格式解析	LiteLLM 必须启用`--stream`模式，并将 Anthropic 的 JSON Lines 流式响应，实时转换为 OpenAI 兼容的`data: {...}`SSE 格式

提示：LiteLLM 默认启动时，不会自动加载任何模型映射规则。如果你只是运行litellm --model claude-3-5-sonnet --api-key sk-...，它会尝试用 OpenAI 的gpt-3.5-turbo模式去调用 Anthropic，结果必然是 400 错误。真正的起点，是创建一个model_router.yaml配置文件，明确定义“当 Codex CLI 说它要gpt-4-turbo时，我实际该调哪个后端”。

下面是我生产环境中使用的model_router.yaml核心片段，它解决了上述所有关键映射：

model_list: - model_name: gpt-4-turbo litellm_params: model: "anthropic/claude-3-5-sonnet-20240620" api_key: "sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" api_base: "https://api.anthropic.com" # 关键：强制 LiteLLM 使用 Anthropic 的 messages API，而非 legacy completions custom_llm_provider: "anthropic" - model_name: gpt-3.5-turbo litellm_params: model: "anthropic/claude-3-haiku-20240307" api_key: "sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" api_base: "https://api.anthropic.com" custom_llm_provider: "anthropic" - model_name: codellama-7b litellm_params: model: "ollama/codellama:7b" api_base: "http://localhost:11434" custom_llm_provider: "ollama"

这个配置的关键点在于：

model_name是 Codex CLI 实际看到并使用的模型名（如gpt-4-turbo），它必须与 Codex CLI 的--model参数完全一致；
litellm_params.model是 LiteLLM 实际调用的后端模型标识，anthropic/claude-3-5-sonnet-20240620是 LiteLLM 官方支持的标准格式；
custom_llm_provider: "anthropic"是强制开关，告诉 LiteLLM：“别用默认的 OpenAI 模式，用 Anthropic 专用适配器”，这个字段缺失是导致 90% 的400 Bad Request的根源；
所有 Anthropic 模型都必须显式指定api_base: "https://api.anthropic.com"，因为 LiteLLM 的 Anthropic 适配器默认 base URL 是https://api.anthropic.com/v1，而 Codex CLI 发出的请求路径是/v1/chat/completions，LiteLLM 会自动拼接为https://api.anthropic.com/v1/messages，这正是 Anthropic v1 API 的正确 endpoint。

实测下来，LiteLLM 的 Anthropic 适配器在systemmessage 处理上非常稳健。我曾用codex chat --model gpt-4-turbo --system "你是一个汇川 PLC 串口协议解析专家，熟悉 INoProShop 的 COM0 组态细节"测试，LiteLLM 会准确地将system内容提取为独立的messages[0]，并将用户输入作为messages[1]，完全符合 Anthropic 的messages数组规范。而如果直接用curl调用 Anthropic API，你必须手动构造这个数组，稍有不慎（比如把system放在content里）就会返回InvalidRequestError: system prompt must be provided as a separate message。

另一个常被忽略的细节是token 计数与截断逻辑。Codex CLI 在发送长文件（如一个 3000 行的 C++ 源码）时，会自动进行 token 截断，确保总长度不超过模型最大上下文。LiteLLM 的 Anthropic 适配器内置了anthropic_token_calculator，它比 OpenAI 的 tiktoken 更精确地计算 Claude 模型的 token 数（Claude 使用的是自己的 tokenizer）。这意味着，当你用codex explain big_file.cpp时，LiteLLM 会先用anthropic_token_calculator精确计算big_file.cpp的 token 数，再决定是否需要截断、截多少，而不是粗暴地按字符数或 OpenAI 的 token 数来切，这直接决定了长代码分析的完整性和准确性。

3. Codex CLI 的安装、配置与“无感切换”实操指南

Codex CLI 并非官方开源项目，其二进制分发包由社区维护，最新稳定版（v0.8.2）可通过 npm 直接安装。但请注意：npm 安装的 Codex CLI 默认只信任 OpenAI 的证书和域名，对 Anthropic 的api.anthropic.com会触发 SSL 验证失败。这不是网络问题，而是 Node.js 的https.Agent默认策略所致。这个问题在 Windows 和 macOS 上尤为常见，Linux 用户因系统 CA 证书库更全，反而较少遇到。

3.1 安装与基础验证：绕过 SSL 陷阱的正确姿势

在终端中执行：

# 全局安装 Codex CLI npm install -g @codex-engineering/codex-cli # 验证安装成功（此时会报错，属正常现象） codex --version

如果看到类似Error: unable to verify the first certificate的报错，说明 SSL 验证失败。此时绝不能通过设置NODE_TLS_REJECT_UNAUTHORIZED=0来全局禁用证书验证（这是严重安全风险）。正确做法是，让 Codex CLI 显式信任 Anthropic 的证书链。

第一步，下载 Anthropic 的根证书（DigiCert Global Root G2）：

# Linux/macOS curl -o anthropic-root.crt https://cacerts.digicert.com/DigiCertGlobalRootG2.crt.pem # Windows (PowerShell) Invoke-WebRequest -Uri "https://cacerts.digicert.com/DigiCertGlobalRootG2.crt.pem" -OutFile "anthropic-root.crt"

第二步，配置 Codex CLI 使用该证书：

# 创建 Codex 配置目录 mkdir -p ~/.codex/config # 写入自定义证书路径（注意：路径需为绝对路径） echo '{"ca": "'$(pwd)/anthropic-root.crt'"}' > ~/.codex/config/config.json

注意：~/.codex/config/config.json是 Codex CLI 唯一读取的配置文件，它不识别环境变量或命令行参数中的证书路径。ca字段必须指向一个有效的.crt文件，且路径必须是绝对路径。相对路径会导致ENOENT错误。

完成此配置后，再次运行codex --version，应能正常输出版本号。这一步是后续所有操作的基础，跳过它，后续所有codex命令都会卡在 SSL 握手阶段。

3.2 配置 LiteLLM 为 Codex CLI 的默认后端：环境变量是唯一可靠方式

Codex CLI 本身不提供“配置后端模型”的命令行选项，它只认一个环境变量：OPENAI_API_BASE。这是它的设计哲学——像对待 OpenAI 一样对待所有模型。因此，我们必须让 LiteLLM 运行在一个固定的、Codex CLI 能访问到的地址上，并通过OPENAI_API_BASE告诉 Codex CLI：“所有 OpenAI API 请求，请发往这个地址”。

启动 LiteLLM 的推荐命令如下（以 Linux/macOS 为例）：

# 启动 LiteLLM，监听本地 4000 端口，使用上面创建的 model_router.yaml litellm \ --config model_router.yaml \ --port 4000 \ --host 0.0.0.0 \ --debug \ --timeout 600

关键参数解释：

--config model_router.yaml：加载我们精心编写的模型映射规则，这是“无感切换”的核心；
--port 4000：固定端口，方便 Codex CLI 配置；
--host 0.0.0.0：允许外部（如本机其他终端）访问，而不仅仅是localhost；
--debug：开启调试日志，当出现 500 错误时，LiteLLM 会在终端打印完整的请求/响应体，这是排错的黄金线索；
--timeout 600：Claude 3.5 Sonnet 处理长代码可能需要较长时间，将超时从默认的 60 秒提升到 10 分钟，避免RequestTimeoutError。

LiteLLM 启动成功后，你会看到类似INFO: Uvicorn running on http://0.0.0.0:4000的日志。此时，在另一个终端中，永久性地设置 Codex CLI 的环境变量：

# Linux/macOS: 写入 shell 配置文件 echo 'export OPENAI_API_BASE="http://localhost:4000"' >> ~/.zshrc echo 'export OPENAI_API_KEY="anything_here"' >> ~/.zshrc source ~/.zshrc # Windows (PowerShell): 设置为当前用户环境变量 [Environment]::SetEnvironmentVariable("OPENAI_API_BASE", "http://localhost:4000", "User") [Environment]::SetEnvironmentVariable("OPENAI_API_KEY", "anything_here", "User")

注意：OPENAI_API_KEY的值可以是任意字符串（如"anything_here"），因为 LiteLLM 的model_router.yaml中已经硬编码了真实的 Anthropic Key。Codex CLI 会把这个假 Key 发送给 LiteLLM，LiteLLM 在收到请求后，会忽略这个 Key，转而使用model_router.yaml中配置的真实 Key 去调用 Anthropic。这是一种安全的设计：你的真实 Key 永远不会暴露给 Codex CLI 进程。

3.3 “无感切换”的终极验证：一条命令，三种模型

现在，一切就绪。打开新终端，执行以下命令：

# 1. 测试基础连通性（应返回模型列表） codex models # 2. 用 Codex CLI 的标准语法，调用我们映射的 "gpt-4-turbo"（实际是 Claude） codex chat --model gpt-4-turbo "请用 Python 写一个函数，解析汇川 PLC 通过 COM0 发送的自由协议数据帧，帧格式为：起始字节 0xAA，长度字节，数据区，校验和（异或）" # 3. 测试流式响应（观察是否逐字输出） codex chat --model gpt-4-turbo --stream "请详细解释 Diffie-Hellman 密钥交换协议的工作原理，并指出 CVE-2002-20001 漏洞的根本原因"

如果codex models返回了gpt-4-turbo,gpt-3.5-turbo,codellama-7b等你配置的model_name，说明 LiteLLM 的路由配置已生效；如果codex chat命令能稳定返回高质量的 Python 代码和协议解析逻辑，并且--stream模式下字符是逐个“打字”式输出，那么恭喜你，你已经完成了从 OpenAI 到 Anthropic 的无缝迁移。

我亲测过，这段用于解析汇川 PLC 自由协议的代码，Claude 3.5 Sonnet 生成的版本比 GPT-4-turbo 更加严谨：它自动考虑了串口缓冲区的粘包问题，加入了while len(buffer) < expected_length:的循环等待逻辑，并且校验和计算明确使用了^（异或）而非+（加法），这正是 Anthropic 模型在工业协议领域训练数据更丰富的体现。

4. 深度排错：当`codex chat`报错`Error><code>nosuchkey</code><message>the specified key does not exist.`时，你在和谁对话？

这是我在搭建过程中遇到的最令人困惑的报错之一。表面上看，nosuchkey明显指向 API Key 错误，但我的 Anthropic Key 是全新的、刚在官网复制下来的、在curl测试中完全可用的。为什么 Codex CLI 通过 LiteLLM 就会报这个错？经过连续三天的--debug日志追踪、Wireshark 抓包、以及对比 Anthropic 官方 SDK 的源码，我最终定位到了问题的根源：这不是 Key 的问题，而是 Codex CLI 在构造请求时，错误地将OPENAI_API_KEY的值，当作了 Anthropic 的x-api-keyHeader 的值。

让我们拆解一下完整的请求链路：

你运行codex chat --model gpt-4-turbo "hello"；
Codex CLI 读取OPENAI_API_BASE=http://localhost:4000和OPENAI_API_KEY=anything_here；
Codex CLI 构造一个标准 OpenAI v1 的 POST 请求：
- URL:http://localhost:4000/v1/chat/completions
- Headers:Authorization: Bearer anything_here,Content-Type: application/json
- Body:{ "model": "gpt-4-turbo", "messages": [...] }
LiteLLM 收到请求，解析AuthorizationHeader，提取出anything_here；
LiteLLM 查找model_router.yaml，发现gpt-4-turbo映射到 Anthropic；
LiteLLM 构造一个新的请求发往https://api.anthropic.com/v1/messages；
关键错误在此：LiteLLM 的 Anthropic 适配器，默认会将步骤 3 中的AuthorizationHeader 的值，直接作为x-api-keyHeader 的值，发送给 Anthropic。

而 Anthropic 的x-api-keyHeader，必须是真实的、以sk-ant-api03-开头的 Key。anything_here显然不是，所以 Anthropic 返回了nosuchkey错误。

解决方案非常简单，但必须精准：

4.1 根本解法：在`model_router.yaml`中显式覆盖`api_key`

修改你的model_router.yaml，为每个 Anthropic 模型添加api_key字段，并确保其值是真实的 Key：

model_list: - model_name: gpt-4-turbo litellm_params: model: "anthropic/claude-3-5-sonnet-20240620" # ✅ 强制 LiteLLM 使用此 Key，忽略来自 Codex CLI 的 Authorization Header api_key: "sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" api_base: "https://api.anthropic.com" custom_llm_provider: "anthropic"

提示：LiteLLM 的文档中明确指出，当litellm_params中存在api_key字段时，它会优先使用该字段的值，完全忽略上游请求中的AuthorizationHeader。这是 LiteLLM 提供的“密钥覆盖”机制，专为这种多层代理场景设计。

4.2 验证与日志分析：如何确认修复成功

重启 LiteLLM 后，再次运行codex chat，并开启--debug：

litellm --config model_router.yaml --port 4000 --debug

当codex chat命令发出后，LiteLLM 的终端会打印出两段关键日志：

第一段是接收 Codex CLI 的请求：

DEBUG:litellm: Incoming request to /chat/completions DEBUG:litellm: Request body: {'model': 'gpt-4-turbo', 'messages': [{'role': 'user', 'content': 'hello'}]} DEBUG:litellm: Request headers: {'Authorization': 'Bearer anything_here', ...}

第二段是 LiteLLM 发送给 Anthropic 的请求：

DEBUG:litellm: Sending request to https://api.anthropic.com/v1/messages DEBUG:litellm: Anthropic request body: {'model': 'claude-3-5-sonnet-20240620', 'messages': [...], 'max_tokens': 4096} DEBUG:litellm: Anthropic request headers: {'x-api-key': 'sk-ant-api03-xxxxxxxx...', 'Content-Type': 'application/json', ...}

请务必确认第二段日志中的x-api-keyHeader 的值，是你真实的 Anthropic Key，而不是anything_here。如果看到x-api-key: anything_here，说明model_router.yaml的api_key字段没有被正确加载，检查 YAML 文件的缩进和引号是否正确（YAML 对空格极其敏感）。

4.3 进阶避坑：`public key retrieval is not allowed`与`RSA public key not find`的真相

搜索热词中频繁出现public key retrieval is not allowed和RSA public key not find，这其实是两个完全不同的问题，但都源于对 LiteLLM 和 Anthropic 协议的误解。

public key retrieval is not allowed：这是一个OpenSSL 库的警告，并非 LiteLLM 或 Anthropic 的错误。当你在某些老旧的 Linux 发行版（如 CentOS 7）上运行 LiteLLM 时，系统 OpenSSL 版本过低（< 1.1.1），不支持 TLS 1.3 的某些特性。Anthropic 的 API 强制要求 TLS 1.3，OpenSSL 在握手时会尝试检索公钥，但因版本限制而失败，于是打印此警告。它不影响功能，可以安全忽略。解决方案是升级系统或使用 Docker 容器（内含新版 OpenSSL）。
RSA public key not find：这是一个Node.js 的错误，发生在 Codex CLI 内部。当 Codex CLI 尝试用crypto模块验证某个证书时，找不到对应的 RSA 公钥。这通常是因为你下载的anthropic-root.crt文件不完整，或者路径配置错误。解决方法是重新下载证书，并用openssl x509 -in anthropic-root.crt -text -noout命令检查其内容，确认Subject:字段包含CN = DigiCert Global Root G2。

这两个错误，一个在 LiteLLM 层（可忽略），一个在 Codex CLI 层（需检查证书），它们与 API Key 本身毫无关系。很多开发者被nosuchkey的表象迷惑，花了大量时间检查 Key 是否复制正确、是否过期、是否权限不足，却忽略了请求链路上真正的“背叛者”——是 Codex CLI 和 LiteLLM 之间那层脆弱的、未被文档充分说明的信任传递机制。

5. 从“能用”到“好用”：工程化增强与生产级实践

打通链路只是第一步。在真实开发中，你需要的不只是“能跑”，而是“跑得稳、看得清、管得住、扩得开”。以下是我在将这套方案落地到团队内部后，总结出的四项关键增强实践。

5.1 用 LiteLLM Metrics 实现 Token 消耗的透明化监控

Codex CLI 本身不提供 token 统计，你永远不知道一次codex explain到底消耗了多少 Anthropic 的 token。LiteLLM 内置了强大的 metrics 功能，可以将每次请求的prompt_tokens、completion_tokens、total_tokens、model、request_id等关键指标，实时输出到标准输出、文件或 Prometheus。

在model_router.yaml中添加 metrics 配置：

model_list: - model_name: gpt-4-turbo litellm_params: model: "anthropic/claude-3-5-sonnet-20240620" api_key: "sk-ant-api03-..." api_base: "https://api.anthropic.com" custom_llm_provider: "anthropic" # ✅ 添加 metrics 配置 metadata: litellm_metrics: enabled: true log_to: "file" log_path: "/var/log/litellm/metrics.log" # 可选：log_to: "prometheus"，用于集成 Grafana

启动 LiteLLM 后，/var/log/litellm/metrics.log中会持续追加类似这样的 JSON 行：

{ "request_id": "8a7f3e2d-1b4c-4f9a-8c2e-1a3b4c5d6e7f", "model": "claude-3-5-sonnet-20240620", "prompt_tokens": 1248, "completion_tokens": 382, "total_tokens": 1630, "latency": 4.28, "timestamp": "2024-07-15T10:23:45.123Z" }

你可以用tail -f /var/log/litellm/metrics.log | jq '.model, .total_tokens'实时监控，也可以用awk '{sum += $NF} END {print "Total tokens:", sum}'快速统计一天的总消耗。这让你对成本有了绝对掌控，再也不用靠猜。

5.2 用 Langfuse 实现 Agent 无侵入式可观测性

标题热词中提到了litellm + langfuse 实现 agent 无侵入性集成。这确实是 LiteLLM 的一大亮点。Langfuse 是一个开源的 LLM 应用可观测平台，它可以自动捕获每一次 LLM 调用的完整输入、输出、元数据、延迟、评分等。

只需在 LiteLLM 启动命令中加入两个环境变量：

LITELLM_LANGFUSE_PUBLIC_KEY="pk-lf-xxxxxxxx" \ LITELLM_LANGFUSE_SECRET_KEY="sk-lf-xxxxxxxx" \ litellm --config model_router.yaml --port 4000

之后，所有通过 LiteLLM 的请求，都会自动出现在 Langfuse 的 Web UI 中。你不仅能看见codex chat的原始 prompt 和 Claude 的 response，还能看到完整的 token 计数、调用链路（trace）、甚至可以手动为某次 response 打分（如“代码是否可运行？”、“解释是否准确？”），这些反馈会自动成为模型微调的数据源。整个过程对 Codex CLI 零侵入，你不需要改一行代码。

5.3 本地 Ollama 模型的无缝接入：当网络不可用时的最后防线

依赖云端 API 总有风险：网络抖动、服务宕机、Key 被限频。一个健壮的方案，必须包含离线兜底。Ollama 是目前最易用的本地模型运行时，codellama:7b和qwen2.5-coder:7b在代码补全任务上表现惊人。

在model_router.yaml中添加 Ollama 模型：

model_list: - model_name: codellama-7b litellm_params: model: "ollama/codellama:7b" api_base: "http://localhost:11434" # Ollama 默认端口 custom_llm_provider: "ollama" # ✅ 关键：设置超时，避免本地模型加载慢导致 Codex CLI 卡死 timeout: 300

然后，在另一台机器上运行ollama run codellama:7b，确保 Ollama 服务已启动。此时，你就可以用codex chat --model codellama-7b "写一个冒泡排序"来获得完全离线的代码生成服务。LiteLLM 会自动处理 Ollama 的/api/chat接口与 OpenAI 的/v1/chat/completions接口之间的所有差异，包括 streaming 格式、response 字段名等。

5.4 安全加固：API Key 的最小权限与轮换策略

将 Anthropic Key 硬编码在model_router.yaml中，虽然方便，但不符合安全最佳实践。生产环境应使用环境变量注入：

# model_router.yaml model_list: - model_name: gpt-4-turbo litellm_params: model: "anthropic/claude-3-5-sonnet-20240620" # ✅ 从环境变量读取，而非明文 api_key: "${ANTHROPIC_API_KEY}" api_base: "https://api.anthropic.com" custom_llm_provider: "anthropic"

启动时：

ANTHROPIC_API_KEY="sk-ant-api03-..." litellm --config model_router.yaml --port 4000

更进一步，可以结合 HashiCorp Vault 或 AWS Secrets Manager，通过脚本在启动 LiteLLM 前动态获取 Key。同时，务必在 Anthropic 控制台为该 Key 设置 Usage Limits（如每分钟最多 100 次请求），并启用 Activity Logs，以便审计。

这套方案，从第一天的“能跑通”，到今天的“团队主力开发助手”，我们用了不到两周。它没有改变我们任何一行业务代码，没有要求任何人学习新命令，只是悄悄地，把背后那个昂贵、受限、不稳定的管道，换成了一个自由、可控、可扩展的引擎。编程自由，原来真的可以始于一条codex chat命令。

查看全文

http://www.gsyq.cn/news/1586352.html