当前位置：首页 > news >正文

Gemini 3.1 Pro 国内合规接入：Vertex AI Endpoint 实操指南

news 2026/6/21 12:41:00

1. 项目概述：这不是“翻墙指南”，而是一份面向开发者的 Gemini 3.1 Pro 国内合规接入实操手记

Gemini 3.1 Pro 这个名字最近在技术圈刷屏了。它不是什么神秘黑科技，而是 Google 正式发布的、当前综合能力最强的开源大模型之一——尤其在多模态理解、长上下文处理（支持高达 200 万 token 的输入）和代码生成方面，确实有硬实力。但问题来了：标题里那个“国内使用攻略”四个字，恰恰戳中了绝大多数开发者的痛点。我见过太多人，在 Google Cloud 控制台里点开 Vertex AI，看到“Gemini 3.1 Pro”那行加粗字体时两眼放光，结果一配置 API Key，一调用generateContent接口，立刻弹出403 Forbidden或400 Bad Request: Project not found的错误。这根本不是模型不行，而是整个链路卡在了“身份认证”和“服务区域”这两个最基础、也最容易被忽略的环节上。

这篇内容，就是为了解决这个“看得见、摸不着”的困境而写的。它不教你如何科学上网，也不提供任何灰色地带的解决方案。它只讲一件事：在完全遵守中国互联网管理规范的前提下，一个持有合法 Google Cloud 账户、且项目已通过合规审核的国内开发者，如何将 Gemini 3.1 Pro 稳定、高效、可复现地集成进自己的生产环境。核心关键词是Gemini 3.1 Pro、Google Cloud、Vertex AI和API。你不需要是 Google Cloud 专家，但需要有一台能访问国际互联网的开发机（这是所有云服务调用的前提），以及一个已经完成企业实名认证的 Google Cloud 项目。如果你的目标是把 Gemini 3.1 Pro 当作一个强大的后端推理引擎，嵌入到你的 SaaS 应用、内部知识库或自动化脚本里，那么这篇内容就是为你量身定制的。它不讲虚的，每一步命令、每一个参数、每一处坑，都是我在三个不同客户项目里亲手踩过、填平、再验证过的。

2. 整体设计与思路拆解：为什么必须绕开“直接调用”的思维定式？

很多人拿到一个新模型，第一反应就是去官网找 SDK，然后pip install google-generativeai，接着照着示例代码model.generate_content("Hello")一跑，发现报错，就开始怀疑人生。Gemini 3.1 Pro 的国内接入，恰恰不能走这条“捷径”。原因非常现实，且根植于 Google Cloud 的全球服务架构。

2.1 核心矛盾：服务区域（Region）与模型可用性的强绑定

Google Cloud 的 Vertex AI 并不是一个全球统一的“大池子”，它是由分布在世界各地的多个物理区域（Region）组成的。每个 Region 都独立部署了一套 Vertex AI 服务，并且并非所有 Region 都上线了所有模型。Gemini 3.1 Pro 在发布初期，仅对少数几个 Region 开放，比如us-central1（美国爱荷华州）、europe-west1（比利时）和asia-southeast1（新加坡）。而国内用户创建的默认项目，其主服务区域（Primary Region）通常是asia-east1（台湾）或asia-northeast1（东京），这两个 Region 在很长一段时间内，压根就没有部署 Gemini 3.1 Pro 的模型实例。

提示：你可以在 Google Cloud Console 的 Vertex AI > Models 页面，点击右上角的“Region”下拉框，挨个切换查看。你会发现，在asia-east1下，列表里只有gemini-1.5-pro-001，而没有gemini-3.1-pro-001。这就是问题的根源——模型根本不在你默认的“家门口”。

2.2 设计思路：从“调用模型”转向“调用服务”

因此，我们的整体设计思路必须发生一次根本性转变：不要想着“我怎么让我的代码连上 Gemini 3.1 Pro”，而要思考“我怎么让 Gemini 3.1 Pro 的服务，主动为我所用”。这听起来有点绕，但其实非常清晰。我们不再把本地开发机当作“客户端”，而是把它当作一个“调度中心”。真正的“客户端”，是我们自己在 Google Cloud 上创建的一个、位于us-central1区域的 Vertex AI Endpoint。这个 Endpoint 就像一个“门面”，它背后绑定了gemini-3.1-pro-001模型，并且暴露了一个标准的 RESTful API 接口。我们的本地代码，只需要向这个us-central1的 Endpoint 发起 HTTP 请求即可。

这个设计带来了三大核心优势：

规避区域限制：Endpoint 本身就在us-central1，天然拥有调用该 Region 所有模型的权限。
提升稳定性：我们不再依赖本地网络直连 Google 的全球骨干网，而是通过 Google Cloud 内部网络（Internal Network）进行通信，延迟更低，丢包率几乎为零。
增强可控性：Endpoint 可以配置完整的访问控制（IAM）、配额管理（Quotas）和日志审计（Cloud Logging），所有调用行为都清晰可查，符合企业级安全合规要求。

2.3 方案选型：为什么是 Vertex AI Endpoint，而不是 Generative AI SDK？

你可能会问，Google 不是提供了google-generativeai这个更轻量的 Python SDK 吗？为什么还要绕一大圈去搞 Vertex AI？答案在于生产环境的健壮性需求。

google-generativeaiSDK 的底层，本质上还是封装了对generativelanguage.googleapis.com这个公共 API 的调用。这个 API 的入口是公开的，它的流量会经过 Google 的全球 CDN 边缘节点。对于国内用户来说，这个路径的网络质量极不稳定，经常出现Connection timed out或SSL handshake failed。更重要的是，它无法进行精细化的配额管理。一个项目里可能有几十个微服务都在用同一个 API Key，一旦某个服务写了个死循环，整个项目的配额就瞬间耗尽，其他服务全部瘫痪。

而 Vertex AI Endpoint 是一个“私有化”的服务。它的 API 地址是https://us-central1-aiplatform.googleapis.com/v1/projects/your-project-id/locations/us-central1/endpoints/your-endpoint-id:predict，这个地址只对你的项目授权，且所有的请求都走 Google Cloud 内网。你可以为每个 Endpoint 单独设置每分钟请求数（RPM）和每分钟 Token 数（TPM）的硬性配额，彻底杜绝了“一颗老鼠屎坏了一锅汤”的风险。这是我给金融客户做方案时，他们拍板的最关键理由。

3. 核心细节解析与实操要点：从账户准备到 Endpoint 创建的完整链路

现在，我们进入最核心、也最需要耐心的部分。整个过程可以分为四个阶段：账户与项目准备、服务启用与权限配置、模型部署与 Endpoint 创建、以及最终的 API 调用测试。每一个环节都有其不可替代的细节，漏掉任何一个，都会导致后续功亏一篑。

3.1 阶段一：账户与项目准备——实名认证是绕不开的“铁门槛”

很多开发者卡在第一步，不是因为技术，而是因为流程。Google Cloud 对于新注册的、尤其是来自中国大陆的账户，有着极其严格的实名认证要求。这并非技术障碍，而是合规的刚性约束。

首先，你必须使用一个已完成企业实名认证的 Google 账户。个人 Gmail 账户（如xxx@gmail.com）是无法创建可用于生产环境的 Vertex AI 项目的。你需要一个由企业邮箱（如xxx@yourcompany.com）登录的 Google Workspace 账户，或者一个在 Google Cloud Console 中完成了“组织”（Organization）绑定的账户。这个“组织”必须关联到一个在中国大陆合法注册的公司，并上传了营业执照扫描件。

注意：这个过程通常需要 1-3 个工作日的审核时间。我建议你在开始技术操作前，就先去 Google Cloud Console 的“管理控制台”（Admin Console）里提交认证申请。不要等到晚上十一点，发现模型跑不通，才想起来去填表。这是最常见的时间黑洞。

其次，创建一个新的 Google Cloud 项目。切记，不要复用你旧的、用于学习或测试的项目。为 Gemini 3.1 Pro 创建一个全新的、命名清晰的项目（例如gemini-31-pro-prod），这样便于后续的权限隔离和成本核算。项目创建完成后，立即进入该项目的“设置”（Settings）页面，确认其“组织”（Organization）字段已正确显示你刚刚认证的企业信息。如果这里显示为空或为No organization，说明实名认证尚未生效，必须等待。

3.2 阶段二：服务启用与权限配置——给项目“开锁”的三把钥匙

一个空的 Google Cloud 项目，就像一把上了三道锁的保险柜。我们必须依次打开这三把锁，才能让 Vertex AI 服务正常运转。

第一把锁：启用 Vertex AI API。这是最基础的一步。进入项目，导航至 “API 和服务” > “库”（Library），在搜索框中输入Vertex AI，找到Vertex AI API，点击启用。这个操作会自动启用其依赖的Cloud Storage API和Cloud Logging API。

第二把锁：启用 Cloud Build API。这一步极易被忽略，但至关重要。Vertex AI 在部署模型时，需要一个临时的构建环境来打包和优化模型镜像。这个环境由 Cloud Build 服务提供。同样在“库”中搜索Cloud Build，启用它。如果不启用，当你点击“Deploy”按钮时，会收到一个模糊的错误Failed to create model deployment job。

第三把锁：配置 IAM 权限。这是安全性的核心。你需要为你的服务账号（Service Account）授予roles/aiplatform.user角色。这个角色是 Vertex AI 的“超级用户”，拥有部署模型、创建 Endpoint、调用预测等全部权限。具体操作路径是：“IAM 和管理” > “IAM”，找到你的服务账号（通常是your-project-id@appspot.gserviceaccount.com），点击右侧的铅笔图标编辑，然后添加角色Vertex AI User。注意，不要授予Owner这种过于宽泛的角色，最小权限原则是云安全的黄金法则。

3.3 阶段三：模型部署与 Endpoint 创建——在`us-central1`打造你的专属“AI 门面”

现在，我们终于来到了技术实现的核心。所有操作都在 Google Cloud Console 的 Vertex AI 控制台中完成。

选择正确的区域：在 Vertex AI 控制台左上角，务必把 Region 切换为us-central1。这是整个流程的基石，绝对不能错。
查找并选择模型：进入 “Models” 页面，点击右上角的“+ ADD MODEL”按钮。在弹出的窗口中，选择 “Browse public models”。在搜索框中输入gemini-3.1-pro，你会看到gemini-3.1-pro-001这个模型。点击它，进入详情页。
部署模型：在模型详情页，点击右上角的 “DEPLOY & TEST” 按钮。这会跳转到一个部署向导。在这里，你需要填写：
- Endpoint name: 给你的 Endpoint 起个名字，比如gemini-31-pro-main。
- Location: 确认是us-central1。
- Machine type: 这是性能与成本的权衡点。n1-standard-8（8 vCPU, 30GB RAM）是官方推荐的最低配置，足以应对大多数中等负载场景。如果你的应用需要处理超长文档（比如 100 页 PDF 的摘要），可以考虑n1-standard-16。但切记，机器规格越高，每小时的费用也呈线性增长。
- Minimum number of nodes: 建议设为1。这保证了服务永远在线，避免冷启动延迟。如果你的业务有明确的低峰期（比如只在工作日 9 点到 18 点运行），可以设为0，但首次调用会有 1-2 分钟的预热时间。
确认并部署：检查所有配置无误后，点击 “DEPLOY”。部署过程通常需要 5-10 分钟。期间，你可以在 “Endpoints” 页面看到状态从CREATING变为READY。当状态变为READY时，你的专属“AI 门面”就正式开业了。

3.4 阶段四：API 调用测试——用最原始的`curl`验证一切是否就绪

Endpoint 创建成功后，下一步就是验证它是否真的能工作。我们不急于写代码，而是用最底层、最透明的curl命令进行测试。这能帮你快速定位是网络问题、认证问题，还是模型本身的问题。

首先，你需要获取两个关键信息：

Endpoint ID: 在 “Endpoints” 页面，点击你的 Endpoint 名称，进入详情页。在 URL 中，/endpoints/后面的那一长串字符就是你的 Endpoint ID。
API Key: 进入 “API 和服务” > “凭据”（Credentials），点击 “+ CREATE CREDENTIALS” > “API key”。创建一个新的 API Key，并复制下来。

然后，执行以下curl命令（请将<YOUR_PROJECT_ID>、<YOUR_ENDPOINT_ID>和<YOUR_API_KEY>替换为你的实际值）：

curl -X POST \ "https://us-central1-aiplatform.googleapis.com/v1/projects/<YOUR_PROJECT_ID>/locations/us-central1/endpoints/<YOUR_ENDPOINT_ID>:predict" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer <YOUR_API_KEY>" \ -d '{ "instances": [ { "messages": [ { "role": "user", "content": "请用中文，用一句话解释什么是量子计算？" } ] } ], "parameters": { "maxOutputTokens": 256, "temperature": 0.2 } }'

如果一切顺利，你将收到一个包含predictions字段的 JSON 响应，其中content就是 Gemini 3.1 Pro 的回答。恭喜，你已经打通了从国内到us-central1的 Gemini 3.1 Pro 服务链路。

4. 实操过程与核心环节实现：从`curl`到 Python SDK 的无缝迁移

完成了curl测试，证明了基础设施的可行性。接下来，我们需要把它变成一个可维护、可扩展的工程化实践。下面，我将展示如何用 Python 完成一次完整的、生产就绪的调用。

4.1 环境准备：安装正确的 SDK

这里有一个关键的版本陷阱。google-generativeaiSDK 主要面向generativelanguage.googleapis.com这个公共 API，而我们要调用的是 Vertex AI 的私有 Endpoint。因此，我们必须使用google-cloud-aiplatform这个官方 SDK。

# 卸载旧的、可能冲突的 SDK pip uninstall google-generativeai -y # 安装 Vertex AI 的官方 SDK pip install google-cloud-aiplatform # 同时安装 Google 的认证库 pip install google-auth

4.2 认证方式：使用服务账号密钥（Service Account Key）

在生产环境中，绝不要在代码里硬编码 API Key。最安全、最推荐的方式是使用服务账号密钥（JSON Key File）。

在 Google Cloud Console 的 “IAM 和管理” > “服务账号” 页面，找到你的服务账号。
点击它，进入详情页，然后点击 “+ CREATE KEY”。
选择 “JSON”，点击 “CREATE”。系统会自动下载一个your-service-account-key.json文件。
将这个文件放在你的项目目录下（例如./keys/gcp-service-account.json），并确保它不会被 Git 提交（加入.gitignore）。

4.3 核心 Python 代码：一份可直接“抄作业”的模板

下面是一份经过我多次生产环境验证的、健壮的 Python 调用代码。它包含了错误重试、超时控制和结构化解析，你可以直接复制粘贴使用。

import json import time from google.cloud import aiplatform from google.cloud.aiplatform.gapic import PredictionServiceClient from google.cloud.aiplatform_v1.types import PredictRequest, PredictResponse from google.auth import default from google.auth.transport.requests import Request # 1. 初始化认证 # 方式一：使用服务账号密钥文件（推荐） # credentials_path = "./keys/gcp-service-account.json" # credentials, project_id = default(scopes=["https://www.googleapis.com/auth/cloud-platform"]) # credentials = service_account.Credentials.from_service_account_file(credentials_path) # 方式二：使用默认凭据（适用于在 GCP VM 或 Cloud Run 中运行） credentials, project_id = default(scopes=["https://www.googleapis.com/auth/cloud-platform"]) # 2. 构建客户端 # 注意：client_options 的 endpoint 必须指定为 us-central1 的地址 client_options = {"api_endpoint": "us-central1-aiplatform.googleapis.com:443"} client = PredictionServiceClient(credentials=credentials, client_options=client_options) # 3. 定义请求参数 endpoint_id = "your-endpoint-id-here" # 替换为你的 Endpoint ID location = "us-central1" project_id = "your-project-id-here" # 替换为你的项目 ID # 4. 构建请求体 # Gemini 3.1 Pro 的输入格式是 messages 数组 instances = [ { "messages": [ { "role": "user", "content": "请用中文，用一句话解释什么是量子计算？" } ] } ] # 参数配置 parameters = { "maxOutputTokens": 256, "temperature": 0.2, "topP": 0.95, "topK": 40 } # 5. 发起预测请求（带重试逻辑） def predict_with_retry(client, endpoint_name, instances, parameters, max_retries=3): for attempt in range(max_retries): try: # 构建完整的 Endpoint 名称 endpoint_name_full = f"projects/{project_id}/locations/{location}/endpoints/{endpoint_id}" # 构建请求对象 request = PredictRequest( endpoint=endpoint_name_full, instances=instances, parameters=parameters ) # 发起同步调用 response = client.predict(request=request, timeout=60) # 解析响应 predictions = response.predictions if predictions and len(predictions) > 0: # Gemini 的响应结构是嵌套的，需要提取 content content = predictions[0].get("content", "") return content else: raise Exception("Empty prediction response") except Exception as e: print(f"Attempt {attempt + 1} failed: {e}") if attempt < max_retries - 1: time.sleep(2 ** attempt) # 指数退避 else: raise e return None # 6. 执行调用 if __name__ == "__main__": try: result = predict_with_retry(client, endpoint_id, instances, parameters) print("Gemini 3.1 Pro Response:") print(result) except Exception as e: print(f"Final failure: {e}")

这段代码的关键点在于：

client_options的api_endpoint：必须显式指定为us-central1-aiplatform.googleapis.com:443，这是连接到us-central1区域服务的唯一方式。
PredictRequest的构造：instances必须是一个列表，即使你只发一条消息。messages数组的role字段只能是"user"或"assistant"，这是 Gemini 的严格要求，违反会导致400 Bad Request。
重试逻辑：网络抖动在跨洋调用中不可避免，内置的指数退避（Exponential Backoff）能极大提升服务的鲁棒性。

4.4 性能调优：如何榨干 Gemini 3.1 Pro 的长上下文能力？

Gemini 3.1 Pro 最大的卖点之一是 200 万 token 的超长上下文。但在实际应用中，很多人发现，传入一个 50 万 token 的文档，模型却“读不懂”了。这通常不是模型的问题，而是输入格式的陷阱。

Gemini 并非一个“全文搜索引擎”。它更擅长处理结构化的对话历史。因此，对于长文档处理，我推荐采用“分块-摘要-整合”的三级策略：

分块（Chunking）：将 50 万 token 的 PDF 文档，按语义（如按章节、按段落）切成 100 个左右、每个约 5000 token 的小块。
摘要（Summarization）：并发地向 Gemini 3.1 Pro 发送 100 个请求，每个请求的messages是{"role": "user", "content": "请用 3 句话总结以下文本的核心观点：[chunk_text]"}。得到 100 个精炼的摘要。
整合（Integration）：将这 100 个摘要，作为新的messages数组，再次发送给 Gemini 3.1 Pro，让它基于这些摘要，生成一份全局性的、高屋建瓴的总报告。

这个策略充分利用了 Gemini 的长上下文，又规避了单次输入过大导致的注意力稀释问题。在我的一个法律合同分析项目中，采用此方法，将一份 300 页的并购协议分析准确率从 68% 提升到了 92%。

5. 常见问题与排查技巧实录：那些只有踩过才知道的“深坑”

在过去的三个月里，我和团队为 7 个不同行业的客户部署了 Gemini 3.1 Pro，积累了一套非常实用的排错经验。下面，我将这些“血泪教训”整理成一张速查表，希望能帮你少走弯路。

问题现象	可能原因	排查与解决技巧
`403 PermissionDenied: Permission 'aiplatform.endpoints.predict' denied`	服务账号缺少`Vertex AI User`角色，或项目未启用 Vertex AI API。	1. 立即检查 IAM 页面，确认服务账号已绑定`roles/aiplatform.user`。 2. 检查 “API 和服务” > “启用的 API”，确认`Vertex AI API`和`Cloud Build API`都处于启用状态。
`400 InvalidArgument: The model has reached its context window limit.`	输入的`messages`数组总长度（token 数）超过了模型的上限（200 万）。	1. 使用`tiktoken`库（`pip install tiktoken`）对你的`messages`进行精确的 token 计数： `python<br>import tiktoken<br>enc = tiktoken.get_encoding("cl100k_base")<br>token_count = len(enc.encode(json.dumps(messages)))<br>print(f"Token count: {token_count}")<br>` 2. 如果接近上限，果断启用`4.4`节中的分块策略。
`503 ServiceUnavailable: The service is temporarily unavailable.`	Endpoint 所在的`us-central1`区域正在经历短暂的维护或流量高峰。	1. 这是偶发性问题，无需恐慌。 2. 在你的代码中，将`max_retries`从 3 提高到 5，并将`timeout`从 60 秒提高到 120 秒。 3. 同时，监控 Google Cloud 的 Status Dashboard ，查看`us-central1`区域是否有已知问题。
`400 Bad Request: messages[0].role must be user or assistant`	`messages`数组中，某条消息的`role`字段写成了`"system"`或`"tool"`。	Gemini 3.1 Pro 的`predict`接口不支持`system`角色。这是与 OpenAI API 的一个关键区别。所有提示词（Prompt）都必须放在`role: "user"`的消息里。如果你想设定模型的行为，应该写在`user`消息的`content`中，例如：`"你是一个资深的法律专家，请用严谨的措辞分析以下合同条款..."`。
调用速度极慢，平均响应时间超过 30 秒	你的服务账号密钥文件（JSON）被错误地放置在了`/tmp`目录下，导致每次调用都要重新加载和解析。	1. 将密钥文件放在项目根目录或一个固定的、有读取权限的路径下。 2. 在代码中，使用`os.path.join()`构建绝对路径，而不是相对路径。 3. 更佳实践：在应用启动时，一次性加载密钥并初始化`client`，而不是在每次请求时都新建`client`。

5.1 一个真实案例：API Key 泄露后的紧急响应

上周，一位客户的运维同事在调试时，不小心把包含 API Key 的curl命令，连同响应日志，一起贴到了一个公开的 GitHub Issue 里。不到 15 分钟，我们就收到了 Google Cloud 的安全告警邮件，提示该 Key 出现了异常的高频调用。

我们立刻执行了三步应急操作：

立即禁用：在 “API 和服务” > “凭据” 页面，找到那个泄露的 API Key，点击右侧的垃圾桶图标，永久删除。
全面审计：在 Cloud Logging 中，使用查询语句resource.type="api" AND protoPayload.methodName="aiplatform.projects.locations.endpoints.predict"，筛选出过去 24 小时的所有调用记录，确认没有敏感数据被窃取。
切换方案：将所有服务的认证方式，从 API Key 全面切换为服务账号密钥（Service Account Key），并启用了密钥轮换（Key Rotation）策略。

这件事给我最大的启示是：在云原生时代，“安全”不是一个功能模块，而是一种贯穿始终的设计哲学。每一行代码、每一次配置，都应该带着对安全边界的敬畏。

6. 工具选型与生态协同：如何让 Gemini 3.1 Pro 成为你技术栈的“心脏”

Gemini 3.1 Pro 不是一个孤立的玩具，它应该成为你整个 AI 技术栈的“心脏”，为前端、后端、数据库乃至 DevOps 流程提供智能动力。下面，我分享几个经过实战检验的、高效的协同模式。

6.1 与向量数据库（Vector DB）的深度耦合

很多客户想用 Gemini 做 RAG（检索增强生成），但直接把整个知识库塞给 Gemini 是低效且昂贵的。最佳实践是：用向量数据库做“大脑”，用 Gemini 做“嘴”。

数据预处理：使用sentence-transformers库，将你的知识库（PDF、Word、网页）转换为向量，并存入 ChromaDB 或 Pinecone。
检索：当用户提问时，先用同样的模型将问题向量化，在向量数据库中进行相似度搜索，召回 Top-K（如 5）个最相关的文本片段。
生成：将这 5 个片段，连同用户的原始问题，一起构造成messages数组，发送给 Gemini 3.1 Pro。此时，输入的总 token 数被严格控制在 10 万以内，既保证了上下文的相关性，又大幅降低了成本。

这种模式，比单纯地“喂”给 Gemini 一个 50 万 token 的文档，效果提升了 3 倍，而成本却下降了 60%。

6.2 与 CI/CD 流水线的自动化集成

Gemini 的强大，还体现在它能“写代码”。我们为一个客户搭建了一套自动化流水线：每当有新的 PR（Pull Request）被提交到 GitHub，GitHub Actions 就会触发一个 Job，调用 Gemini 3.1 Pro 的 API，让它：

审查代码：分析 PR 中修改的代码，指出潜在的 Bug、安全漏洞（如 SQL 注入、XSS）和不符合团队规范的地方。
生成测试用例：根据新增的函数签名，自动生成单元测试（Unit Test）的骨架代码。
撰写 Release Note：汇总本次 PR 的所有变更，自动生成一份专业、易懂的发布说明。

整个过程，从 PR 提交到收到一份包含代码审查意见、测试代码和发布说明的评论，全程不超过 90 秒。这不仅解放了工程师的双手，更将代码质量的把控，从“人治”推向了“自治”。

6.3 成本监控与优化：一张表格看清你的每一分钱花在哪

最后，也是最重要的一点：大模型不是免费的午餐。Gemini 3.1 Pro 的定价是按input_token和output_token分别计费的。一个看似简单的问答，背后可能消耗了上千个 token。

我强烈建议你为项目开启 Google Cloud 的Cost Management功能，并创建一个专门的预算告警。同时，建立一个简单的日志分析脚本，每天定时抓取 Cloud Logging 中的aiplatform.googleapis.com日志，统计当日的总 token 消耗量，并生成如下表格：

日期	Input Tokens	Output Tokens	总 Cost (USD)	主要调用方	备注
2024-05-20	1,245,890	321,456	$12.45	CRM 系统	新增客户画像分析功能
2024-05-21	892,345	210,789	$8.92	内部知识库	周末无调用
2024-05-22	2,105,678	543,210	$21.05	自动化测试流水线	高峰期，触发了全量回归