当前位置：首页 > news >正文

DeepSeek API实战指南：从调通到成本可控的完整落地路径

news 2026/6/18 16:09:04

1. 项目概述：这不是API文档，而是一份真实跑通DeepSeek模型的实操手记

“DeepSeek API”这五个字最近在技术圈里出现频率越来越高，但很多人点开官方页面后第一反应是：文档写得挺全，可我到底该从哪一步开始调用？怎么确认返回结果是可靠的？一次请求到底花多少钱？有没有可能在本地先试跑通再上生产？这些问题，光看接口说明根本找不到答案。我过去三个月里把DeepSeek-R1、DeepSeek-Coder-V2、DeepSeek-VL三个主力模型都拉进自己的工作流里跑了至少200次真实请求，从本地调试到服务端集成，从单次问答到批量处理，从token计数偏差到并发限流踩坑，全程记录每一分成本和每一处响应延迟。这篇内容不是照搬官方SDK示例，而是我把所有调试日志、账单截图、响应耗时曲线、token拆解表格全部整理出来后，重新梳理出的一条可复现、可计量、可优化的落地路径。如果你正打算把DeepSeek接入自己的工具链、AI助手或内部知识库，或者你只是想搞清楚“调用一次128K上下文的R1模型，到底要扣我账户多少钱”，那这篇文章就是为你写的——它不讲大道理，只告诉你命令怎么敲、参数怎么设、钱怎么算、错怎么排。

核心关键词已经自然嵌入：DeepSeek API、成本计算、请求示例、token统计、模型选型、R1、Coder-V2、VL。整套流程适配三类读者：刚接触大模型API的新手（能照着命令直接跑通）、需要控制预算的技术负责人（能精准预估月度支出）、以及正在做模型对比选型的算法工程师（能横向评估不同模型在相同任务下的表现差异）。它解决的不是“能不能调通”的问题，而是“调通之后怎么稳、怎么省、怎么扩”的实际问题。下面所有内容，都来自我每天在终端里敲下的真实命令、在Postman里保存的请求集合、在Excel里反复校验的计费表格，以及被我删掉又重写的7版Python封装脚本。

2. 整体设计思路与方案选型逻辑

2.1 为什么不用官方SDK？而选择Requests+手动封装？

DeepSeek官方提供了Python SDK，安装命令是pip install deepseek，看起来很省事。但我实测下来，在三个关键场景下它反而成了障碍：

调试不可见：SDK把HTTP请求细节完全封装掉了，当你收到429 Too Many Requests时，你根本看不到Header里返回的X-RateLimit-Remaining和X-RateLimit-Reset具体数值，只能干等；
token统计失真：SDK默认开启stream=False，但它的get_usage()方法返回的是“本次请求估算token数”，而非实际计入账单的精确值。我在一次含15个代码块的文档解析中发现，SDK报告用了3287 tokens，而后台账单显示为3842——差了555 tokens，误差率16.9%；
模型切换僵硬：SDK初始化时必须指定model="deepseek-coder"，但实际API支持同一Endpoint动态切换模型（如/v1/chat/completions可传model=deepseek-r1或model=deepseek-vl），SDK却强制绑定，导致我不得不为每个模型维护独立Client实例。

所以我最终采用纯Requests方案，自己构造Header、解析Response、提取Usage字段。虽然多写12行代码，但换来的是：
✅ 每次请求的完整curl命令可复制粘贴验证；
✅response.headers里所有限流、计费、缓存信息一目了然；
✅ 同一份请求模板，只需改一个model参数就能横向对比R1和Coder-V2在相同prompt下的输出质量与成本差异。

提示：这不是反对SDK，而是强调“调试期必须裸写HTTP”。等你的流程稳定、日均请求超5000次后，再用SDK做生产封装——但上线前，请务必用裸请求做过至少3轮全链路压测。

2.2 为什么坚持用OpenAI兼容接口？而不是原生DeepSeek Endpoint？

DeepSeek提供两类接口：

原生Endpoint：https://api.deepseek.com/v1/chat/completions（需Bearer Token）
OpenAI兼容Endpoint：https://api.deepseek.com/v1/chat/completions（同样地址，但Header和Body结构与OpenAI一致）

初看两者URL一样，容易混淆。但关键区别在于Authentication方式和Request Body结构：

维度	原生DeepSeek接口	OpenAI兼容接口
Authorization Header	`Authorization: Bearer <your_api_key>`	`Authorization: Bearer <your_api_key>`（相同）
Content-Type	`application/json`	`application/json`（相同）
Request Body字段	`{"messages": [...], "model": "deepseek-r1", "temperature": 0.7}`	完全一致（OpenAI标准格式）
Response Body字段	`{"id":"...", "choices":[{"message":{"content":"..."}}], "usage":{"prompt_tokens":123,"completion_tokens":45,"total_tokens":168}}`	完全一致（OpenAI标准格式）

也就是说，DeepSeek的OpenAI兼容接口，就是原生接口本身。它不是额外部署的代理层，而是官方主动对齐OpenAI Schema的设计。这意味着：
🔹 你所有已有的OpenAI调用代码（LangChain、LlamaIndex、Ollama客户端）几乎无需修改就能切到DeepSeek；
🔹 所有OpenAI token计算工具（如tiktoken）可直接复用；
🔹 你在ChatGPT Playground里调试好的prompt，粘贴过来就能跑。

我之所以强调“坚持用OpenAI兼容接口”，是因为见过太多团队绕路去适配所谓“原生协议”，结果发现文档里写的/v1/completionsendpoint早已下线，或者max_tokens参数在原生接口里叫max_new_tokens——徒增理解成本。DeepSeek官方明确表示：“推荐所有新接入用户使用OpenAI兼容接口”，这是经过大规模客户验证后的最优路径。

2.3 成本控制不是事后查账，而是前置建模

很多技术同学把成本计算放在最后一步：等服务跑起来，看月度账单再优化。这在DeepSeek场景下极其危险。原因很简单：DeepSeek按实际消耗tokens计费，而token数量受三个变量强影响：

Prompt长度：不是字符数，而是经tokenizer分词后的子词单元数；
Response长度：模型生成的content长度，且受max_tokens硬限制；
模型版本：R1、Coder-V2、VL的单价不同，且同模型不同上下文长度的单价也不同（如R1在32K和128K上下文档位定价不同）。

我做的第一件事，是在本地搭了一个“成本沙盒”：用tiktoken加载deepseek-ai/deepseek-codertokenizer，对任意输入文本做精确token计数，并结合当前官网公布的单价表（2024年Q3最新），实时计算单次请求理论成本。这个沙盒不是估算，而是把prompt_tokens × prompt_price + completion_tokens × completion_price直接算成人民币分（¥0.0001起跳）。

举个真实例子：上周我帮一个法律SaaS客户做合同条款提取，原始PDF转文本后约18,000字符。我用tiktoken测得其token数为23,417。客户要求模型返回结构化JSON，最大长度设为2048。R1-128K模型的单价是：

输入：¥0.0002 / 1K tokens
输出：¥0.0004 / 1K tokens

那么单次请求理论成本 = (23417 ÷ 1000) × 0.0002 + (2048 ÷ 1000) × 0.0004 = ¥0.0046834 + ¥0.0008192 =¥0.0055026（约0.55分钱）。

这个数字让我立刻否决了客户提出的“每次用户上传就实时分析”的方案——他们DAU 2万，日均请求量将达60万次，日成本超¥3300。转而推动他们改为“用户点击分析按钮后才触发”，并加入缓存层，最终将日均请求压到1.2万次，日成本控制在¥66以内。

成本控制的本质，是把“钱”这个抽象概念，翻译成“token数”这个可测量、可优化、可编程的工程指标。下面我会带你一步步拆解这个翻译过程。

3. 核心细节解析与实操要点

3.1 Token计数：为什么你看到的字符数≠实际扣费token数？

这是所有成本误判的根源。DeepSeek使用的tokenizer是基于SentencePiece的变体，与OpenAI的tiktoken高度兼容，但存在细微差异。我实测对比了1000个中文段落、500段英文代码、200个混合中英文prompt，结论是：

对纯中文文本，DeepSeek tokenizer比tiktoken.get_encoding("cl100k_base")平均多出3.2%的token；
对含大量符号的代码（如Python装饰器、正则表达式），DeepSeek tokenizer比tiktoken少1.8%；
对标准Markdown文档（含标题、列表、代码块），两者误差在±0.5%内，可忽略。

所以我的实操建议是：
✅优先用tiktoken做前期估算——因为它的Python库成熟、文档全、社区支持好；
✅上线前必须用DeepSeek真实API做Token校准——调用一次/v1/chat/completions，取Response里的usage.prompt_tokens字段，与tiktoken结果对比，记录偏差率；
✅对高价值业务（如付费功能），建立token映射表——比如“法律合同分析”场景，我们测得100份样本的平均偏差率为+2.7%，就在成本沙盒里统一乘以1.027系数。

下面是一个可直接运行的token校准脚本（Python 3.9+）：

import tiktoken import requests import json # 初始化tokenizer（DeepSeek-Coder专用） enc = tiktoken.get_encoding("deepseek-coder") def count_tokens_tiktoken(text: str) -> int: return len(enc.encode(text)) def count_tokens_deepseek_api(text: str, api_key: str) -> int: url = "https://api.deepseek.com/v1/chat/completions" headers = { "Authorization": f"Bearer {api_key}", "Content-Type": "application/json" } data = { "model": "deepseek-coder", "messages": [{"role": "user", "content": text}], "max_tokens": 1 # 只生成1个token，最小化成本 } response = requests.post(url, headers=headers, json=data) if response.status_code == 200: return response.json()["usage"]["prompt_tokens"] else: raise Exception(f"API error: {response.status_code} {response.text}") # 示例：校准一段法律条款 sample_text = "甲方应于本协议生效后30日内向乙方支付首期款人民币伍拾万元整（¥500,000）。" tiktoken_count = count_tokens_tiktoken(sample_text) api_count = count_tokens_deepseek_api(sample_text, "YOUR_API_KEY_HERE") print(f"文本: {sample_text[:50]}...") print(f"tiktoken计数: {tiktoken_count}") print(f"DeepSeek API实测: {api_count}") print(f"偏差率: {((api_count - tiktoken_count) / tiktoken_count)*100:.2f}%")

运行结果示例：

文本: 甲方应于本协议生效后30日内向乙方支付首期款人民币伍拾万元整（¥500,000）... tiktoken计数: 42 DeepSeek API实测: 43 偏差率: 2.38%

注意：max_tokens=1是关键技巧。它让模型只生成最简响应（通常为一个标点或空格），确保prompt_tokens字段反映的是纯输入token数，不受输出干扰。这个技巧我在所有校准场景中都用，百试百灵。

3.2 请求头（Headers）里藏着的5个关键信息

很多人只关注Authorization，却忽略了Header里其他4个决定性字段。我在Postman里把每次请求的Header导出成CSV，连续追踪7天后，总结出必须监控的5个Header：

Header字段	示例值	作用	实操建议
`X-RateLimit-Limit`	`5000`	每分钟总请求数上限	写入监控大盘，当剩余<10%时自动告警
`X-RateLimit-Remaining`	`4823`	当前窗口剩余请求数	在重试逻辑里读取此值，若<100则sleep(1)再重试
`X-RateLimit-Reset`	`1722456789`	重置时间戳（Unix秒）	转换为`datetime.fromtimestamp()`，直观显示“还剩X秒”
`X-Model-Id`	`deepseek-r1-128k`	实际执行的模型ID	验证是否命中预期模型，防止因参数错误降级到小模型
`X-Request-Id`	`req_abc123xyz`	全局唯一请求ID	记录到日志，关联后续客服工单或账单查询

其中X-Model-Id最容易被忽视。有一次我传了model=deepseek-r1，但Header里返回的是X-Model-Id: deepseek-r1-32k，排查发现是账号权限问题——免费试用账号默认只能调用32K上下文版本。我立刻联系商务开通128K权限，第二天就恢复正常。所以我的经验是：每次成功请求后，第一件事就是检查X-Model-Id是否符合预期。这比等用户反馈“回答不完整”要早4小时发现问题。

3.3 模型选型不是看参数大小，而是看任务匹配度

DeepSeek目前主推三款模型，但它们的适用场景截然不同。我做了200+次AB测试，结论非常清晰：

DeepSeek-R1（128K上下文）：适合长文档理解、多轮复杂推理、需要强逻辑连贯性的场景。
✅ 典型用例：法律合同审查（识别条款冲突）、学术论文摘要（跨章节关联）、产品需求文档分析（从PRD推导测试用例）。
❌ 不适合：代码补全、数学计算、实时对话——R1的响应延迟比Coder-V2高42%，且代码生成质量略逊。
DeepSeek-Coder-V2（16K上下文）：专为代码优化，支持67种编程语言，对GitHub风格注释、PR描述、Stack Overflow式提问理解极佳。
✅ 典型用例：自动生成单元测试、从Jira ticket生成代码、SQL查询优化建议、前端组件文档生成。
❌ 不适合：纯文本创作、多语言翻译、图像描述——它没有VL的视觉能力，也不擅长非技术类写作。
DeepSeek-VL（视觉语言模型）：能同时处理图像和文本，但当前API仅开放图文理解（image understanding），不支持图像生成。
✅ 典型用例：电商商品图识别（品牌、品类、瑕疵）、医疗影像报告辅助生成（X光片+病历文本联合分析）、教育场景题图解析（数学应用题配图理解）。
❌ 不适合：任何纯文本任务——VL的文本能力弱于R1，且单价贵3倍。

我画了一张决策树帮你快速选型：

你的输入是什么？ ├── 纯文本（>5000字） → DeepSeek-R1（128K） ├── 纯文本（<2000字）且含代码 → DeepSeek-Coder-V2 ├── 纯文本（<2000字）且无代码 → DeepSeek-R1（32K，省钱） └── 图像+文本 → DeepSeek-VL（注意：需base64编码图片，且图片大小≤20MB）

特别提醒：不要迷信“越大越好”。我曾用R1-128K跑一个120字的Python报错提示，耗时1.8秒，花费¥0.0003；换成Coder-V2，耗时0.4秒，花费¥0.00012，且修复建议更精准。模型选型的第一原则是：用最小够用的模型，完成当前任务。

4. 实操过程与核心环节实现

4.1 从零开始：5分钟跑通第一个DeepSeek API请求

别被“API”吓住。整个过程只需要3步，全部在终端里完成，不需要写一行代码。

第一步：获取API Key
登录 DeepSeek Console → 左侧菜单“API Keys” → 点击“Create API Key” → 复制生成的密钥（形如sk-xxx）。注意：这个Key有权限范围，首次创建默认拥有全部模型访问权。

第二步：发送curl请求（Mac/Linux）
打开终端，粘贴以下命令（替换YOUR_API_KEY_HERE为你的真实Key）：

curl -X POST "https://api.deepseek.com/v1/chat/completions" \ -H "Authorization: Bearer YOUR_API_KEY_HERE" \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-coder", "messages": [ {"role": "user", "content": "用Python写一个函数，计算斐波那契数列第n项，要求时间复杂度O(n)，空间复杂度O(1)"} ], "temperature": 0.1 }'

第三步：解析响应
你会看到类似这样的JSON输出（为节省篇幅，此处只展示关键字段）：

{ "id": "chatcmpl-abc123", "object": "chat.completion", "created": 1722456789, "model": "deepseek-coder", "choices": [{ "index": 0, "message": { "role": "assistant", "content": "```python\ndef fibonacci(n):\n if n <= 0:\n return 0\n elif n == 1:\n return 1\n a, b = 0, 1\n for _ in range(2, n + 1):\n a, b = b, a + b\n return b\n```" }, "finish_reason": "stop" }], "usage": { "prompt_tokens": 42, "completion_tokens": 87, "total_tokens": 129 } }

现在，你已经完成了第一次调用。重点看usage字段：这次请求消耗了129个tokens，按Coder-V2单价（¥0.0001/1K input, ¥0.0002/1K output），成本是：
(42÷1000)×0.0001 + (87÷1000)×0.0002 = ¥0.0000042 + ¥0.0000174 =¥0.0000216（0.00216分钱）。

实操心得：第一次调用务必用temperature=0.1，而不是默认的0.7。低温度让模型输出确定性更强，便于你快速验证返回格式是否正确。等流程跑通后，再逐步放开温度值做效果调优。

4.2 生产级封装：一个健壮的Python Client类

上面的curl命令适合调试，但生产环境需要可维护、可监控、可重试的封装。这是我正在用的DeepSeekClient类，已通过10万次请求压测：

import time import json import logging import requests from typing import List, Dict, Any, Optional from dataclasses import dataclass @dataclass class Usage: prompt_tokens: int completion_tokens: int total_tokens: int @dataclass class ChatCompletionResponse: content: str usage: Usage model_id: str request_id: str class DeepSeekClient: def __init__(self, api_key: str, base_url: str = "https://api.deepseek.com"): self.api_key = api_key self.base_url = base_url.rstrip("/") self.session = requests.Session() self.session.headers.update({ "Authorization": f"Bearer {api_key}", "Content-Type": "application/json" }) # 设置默认超时 self.timeout = (10, 60) # connect=10s, read=60s def chat_completion( self, messages: List[Dict[str, str]], model: str = "deepseek-coder", temperature: float = 0.7, max_tokens: int = 1024, top_p: float = 1.0, frequency_penalty: float = 0.0, presence_penalty: float = 0.0 ) -> ChatCompletionResponse: url = f"{self.base_url}/v1/chat/completions" payload = { "model": model, "messages": messages, "temperature": temperature, "max_tokens": max_tokens, "top_p": top_p, "frequency_penalty": frequency_penalty, "presence_penalty": presence_penalty } for attempt in range(3): try: start_time = time.time() response = self.session.post(url, json=payload, timeout=self.timeout) end_time = time.time() if response.status_code == 200: data = response.json() usage = Usage( prompt_tokens=data["usage"]["prompt_tokens"], completion_tokens=data["usage"]["completion_tokens"], total_tokens=data["usage"]["total_tokens"] ) return ChatCompletionResponse( content=data["choices"][0]["message"]["content"], usage=usage, model_id=response.headers.get("X-Model-Id", model), request_id=response.headers.get("X-Request-Id", "") ) elif response.status_code == 429: # 限流处理：读取重置时间，sleep后重试 reset_ts = int(response.headers.get("X-RateLimit-Reset", "0")) sleep_seconds = max(1, reset_ts - int(time.time())) logging.warning(f"Rate limited. Sleeping for {sleep_seconds}s") time.sleep(sleep_seconds) continue else: raise Exception(f"API error {response.status_code}: {response.text}") except requests.exceptions.Timeout: if attempt == 2: raise Exception("Request timeout after 3 attempts") time.sleep(1) continue except requests.exceptions.RequestException as e: if attempt == 2: raise Exception(f"Network error: {e}") time.sleep(0.5) continue raise Exception("Unexpected error") # 使用示例 if __name__ == "__main__": client = DeepSeekClient("YOUR_API_KEY_HERE") messages = [ {"role": "user", "content": "解释TCP三次握手的过程，用通俗语言，不超过200字"} ] try: resp = client.chat_completion(messages, model="deepseek-r1") print(f"响应内容: {resp.content}") print(f"消耗tokens: {resp.usage.total_tokens}") print(f"实际调用模型: {resp.model_id}") print(f"请求ID: {resp.request_id}") except Exception as e: print(f"调用失败: {e}")

这个Client的关键特性：
🔹智能重试：遇到429时，不是简单sleep(1)，而是读取X-RateLimit-Reset精确计算等待秒数；
🔹全链路监控：request_id可追溯、model_id可验证、usage可计费；
🔹异常分级：网络超时、API错误、限流分别处理，不把所有错误都抛给上层；
🔹零依赖：只用标准库requests，避免引入tiktoken等非必要包（token计数应在业务层做）。

4.3 成本计算器：Excel+Python双轨验证

我坚持用两个独立系统交叉验证成本，因为任何单一工具都可能出错。以下是具体操作：

Excel成本表（面向财务/产品）
新建Excel，设置4列：

A列：Prompt文本（粘贴你的输入）
B列：=@LEN(A2)（字符数，粗略参考）
C列：用在线工具（如 https://platform.openai.com/tokenizer ）粘贴A列内容，复制token数填入C列
D列：=C2/1000*0.0002 + 1024/1000*0.0004（假设max_tokens=1024，Coder-V2单价）

这样产品经理打开Excel就能看到：“这段需求描述，调一次要花0.0003元”。

Python成本沙盒（面向工程师）
用前面提到的tiktoken脚本，对所有线上prompt做批量token统计，并写入数据库：

# batch_token_calculator.py import sqlite3 import tiktoken from datetime import datetime enc = tiktoken.get_encoding("deepseek-coder") conn = sqlite3.connect("cost.db") cursor = conn.cursor() cursor.execute(""" CREATE TABLE IF NOT EXISTS token_logs ( id INTEGER PRIMARY KEY AUTOINCREMENT, prompt_hash TEXT UNIQUE, prompt_text TEXT, token_count INTEGER, model TEXT, created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ) """) def log_prompt(prompt: str, model: str): prompt_hash = str(hash(prompt))[-12:] # 简单哈希去重 token_count = len(enc.encode(prompt)) cursor.execute( "INSERT OR IGNORE INTO token_logs (prompt_hash, prompt_text, token_count, model) VALUES (?, ?, ?, ?)", (prompt_hash, prompt[:200], token_count, model) ) conn.commit() return token_count # 示例：统计100个用户常见提问 common_questions = [ "我的订单还没发货，能查下物流吗？", "如何重置支付密码？", "发票抬头可以修改吗？", # ... 其他97条 ] for q in common_questions: tokens = log_prompt(q, "deepseek-r1") print(f"'{q[:30]}...' → {tokens} tokens") conn.close()

每天凌晨2点，这个脚本会自动跑一次，把所有新入库的prompt做token统计，并生成日报邮件：“今日新增prompt 237条，平均token数42.3，预计日增成本¥0.021”。

注意：不要把敏感prompt（如用户手机号、身份证号）直接入库。我的做法是：入库前做脱敏，用正则替换\d{11}为[PHONE]，\d{18}为[IDCARD]，既保留长度特征，又保障数据安全。

5. 常见问题与排查技巧实录

5.1 “429 Too Many Requests”不是错误，而是你的流量仪表盘

几乎所有新手都会被429吓到，以为服务挂了。其实这是DeepSeek最友好的设计——它用HTTP状态码直接告诉你：“你快超速了”。关键是要读懂Header里的信号：

场景	X-RateLimit-Limit	X-RateLimit-Remaining	X-RateLimit-Reset	应对策略
新注册免费账号	5000	4999	1722456789	正常，无需操作
高峰期批量请求（1000次/分钟）	5000	12	1722456789	立即降低QPS至4500，或加随机delay
持续满载（连续5分钟Remaining<100）	5000	0	1722456789	联系商务升级配额，或启用多Key轮询

我遇到过最典型的案例：一个客户用Celery做异步任务，10个worker并发调用，每秒发50个请求，结果每分钟都触发429。解决方案不是加retry，而是：
1️⃣ 在Celery配置里加全局限流：task_default_rate_limit = '4500/m'；
2️⃣ 每个worker启动时，用time.time() % 60生成0-59秒的随机偏移，错开请求洪峰；
3️⃣ 在on_failure回调里，捕获429并记录X-RateLimit-Reset，用于后续调度优化。

实操心得：把429当成监控指标，而不是错误。我在Grafana里建了一个面板，实时显示X-RateLimit-Remaining的最小值，当它持续低于500时，自动触发企业微信告警。这比等用户投诉“响应慢”要早3小时发现问题。

5.2 “Response truncated”：不是模型能力问题，而是max_tokens设太小

这是第二大高频问题。用户看到返回内容被截断（如“根据上述分析，我们可以得出结论：...”后面没了），第一反应是“模型不行”。其实90%的情况，是max_tokens参数没设够。

DeepSeek的max_tokens含义是：模型最多生成多少个tokens，不包括输入部分。例如：

你输入prompt共1000 tokens；
设max_tokens=512；
模型最多生成512 tokens，总响应长度≤1512 tokens；
如果模型在生成第512个token时刚好写完一句话，那内容完整；
如果它在第512个token时卡在半句话中间，就会被硬截断。

我的解决方案是：永远用max_tokens的1.2倍作为安全冗余。比如你预估需要300 tokens输出，就设max_tokens=360。对于长文档摘要这类不确定输出长度的任务，我设为max_tokens=2048（R1-128K的推荐上限），并配合stop=["\n\n"]参数，让模型在生成两个换行时主动停止，避免无意义续写。

5.3 “Invalid API key”：99%是因为复制时带了空格或换行

最让人抓狂的错误。你明明复制了Key，粘贴到代码里，却一直报401。我用curl -v抓包后发现，Header里传的是：

Authorization: Bearer sk-abc123

末尾多了一个空格！这是因为Mac的pbpaste或Windows的Ctrl+V有时会把剪贴板里的不可见字符（如\r\n）一起带进来。

终极解决方案：
1️⃣ 在终端里用echo "YOUR_KEY" | hexdump -C查看十六进制，确认没有0a(LF)、0d(CR)、20(Space)；
2️⃣ 在Python里用os.getenv("DEEPSEEK_API_KEY").strip()强制去空；
3️⃣ 在.env文件里写Key时，用单引号包裹：DEEPSEEK_API_KEY='sk-abc123'，避免Shell解析问题。

我把它写进了团队规范第一条：“所有API Key必须经strip()处理，否则Code Review不通过”。