当前位置：首页 > news >正文

Agentic RAG实战：用AI Agent重构企业级知识服务

news 2026/6/21 5:09:35

1. 这不是“搭个RAG”，而是给大模型装上可信赖的外接大脑

我第一次在客户现场看到那个演示时，心里咯噔一下：他们用LangChain+ChromaDB搭了个“RAG知识库”，用户问“我们Q3销售政策里关于渠道返点的最新条款是什么”，系统返回了一段完全不存在的、逻辑自洽但纯属编造的文字。这不是效果不好，是根本不可信——它把幻觉当成了答案。后来我才明白，问题不在RAG本身，而在于整个流程缺乏“判断力”和“纠错机制”。真正能落地的企业级知识服务，从来不是让LLM单打独斗，而是用AI Agent作为调度中枢，把检索、验证、推理、调用、反思这些动作拆解成可观察、可干预、可审计的步骤。你看到的“利用AI Agent搭建RAG系统”，表面是技术选型组合，内核其实是工作流范式的升级：从“喂数据→等回答”的被动响应，转向“理解意图→规划路径→分步执行→交叉验证→生成结论”的主动协作。这背后涉及三个关键跃迁：一是角色分工——Agent是项目经理，Retriever是情报员，LLM是咨询顾问；二是过程可控——每一步的输入输出都可记录、可回溯、可替换；三是能力可扩展——今天加个PDF解析器，明天就能接入ERP接口，后天还能调用天气API做动态补全。所以别再纠结“要不要用LangChain”，先想清楚你的业务场景里，哪个环节最怕出错？是检索不准？是答案不全？还是关键信息被忽略？这些痛点，才是决定你是否需要Agentic RAG的真实标尺。关键词里反复出现的conda、ChromaDB、LangChain，它们不是堆砌的标签，而是支撑这套新范式落地的三块基石：conda管好环境隔离这个地基，ChromaDB扛住向量检索这个重活，LangChain则提供Agent编排这个指挥系统。接下来，我们就从真实踩坑现场出发，一层层拆开这个系统的血肉。

2. 为什么90%的RAG项目卡在“能跑通”却过不了验收关

我参与过7个不同行业的RAG落地项目，其中5个在POC阶段就陷入僵局。客户说“功能都实现了”，但业务部门反馈“不敢用”。问题不出在技术参数上，而藏在四个被普遍忽视的断层里：

2.1 检索与意图的语义断层

传统RAG默认用户提问就是最终查询，但现实中的业务问题充满隐含前提。比如销售同事问：“华东区代理商A的返点政策有变化吗？”——这里隐含了三个关键锚点：“华东区”（地理维度）、“代理商A”（实体识别）、“返点政策”（文档类型）。如果直接把整句话扔给向量检索，ChromaDB大概率会召回一堆标题含“返点”的泛化文档，而漏掉那份只在页脚注明“适用华东区域”的PDF附件。我在某医疗器械公司就遇到过类似情况：销售手册里明确写了“骨科耗材返点按阶梯计算”，但检索时因未显式标注“骨科”，系统返回了普外科的政策文档。解决方案不是换更贵的embedding模型，而是让Agent先做一次意图解析：用轻量级LLM（如Phi-3-mini）提取地域、主体、政策类型三元组，再构造结构化查询。实测下来，召回相关性提升42%，且人工校验时间减少60%。

2.2 检索结果与答案生成的质量断层

很多团队以为“召回Top3文档”就够了，但实际中常出现两种致命情况：一是召回文档质量参差不齐（比如一份是2023年旧版政策，一份是2024年更新通知，还有一份是内部会议纪要），二是关键信息分散在多份文档中。当LLM被要求“综合所有文档回答”时，它会无意识地进行信息拼接，把A文档的条款和B文档的例外条件强行组合，产出看似合理实则违规的答案。我们在金融合规项目中发现，这种拼接错误率高达37%。破局点在于引入Agent的“验证者”角色：对每份召回文档单独打分（内容时效性、来源权威性、段落相关性），再用规则引擎过滤掉低分文档，最后才把高置信度片段送入LLM。这个验证步骤增加约0.8秒延迟，但将答案准确率从61%拉升至89%。

2.3 系统能力与业务边界的认知断层

最典型的误区是把RAG当成万能问答机。某零售企业要求系统回答“下周北京朝阳门店的库存预测”，结果Agent调用销售历史数据后，发现缺少天气API接口，直接返回“无法预测”。问题不在于技术缺失，而在于Agent缺乏对自身能力边界的认知。真正的Agentic RAG必须内置“能力图谱”：明确标注哪些任务可本地处理（查政策）、哪些需外部API（查天气）、哪些必须人工介入（合同审批）。我们在设计时用JSON Schema定义每个工具的输入约束、输出格式、失败降级策略。当遇到超纲问题，Agent不再硬着头皮编造，而是生成结构化请求：“需调用天气API获取北京未来7天降水概率，当前缺少API Key，请管理员配置”。这种“知道不知道”的诚实，反而建立了业务方的信任。

2.4 开发流程与生产运维的环境断层

热词里高频出现的conda error，恰恰暴露了最底层的隐患。很多团队在Jupyter里用pip install一把梭哈，到部署时才发现：PyTorch版本冲突导致GPU推理失败；ChromaDB的duckdb依赖与现有BI工具打架；甚至Windows路径分隔符差异让文档加载直接报错。我在某政务项目中亲眼见过，开发环境用conda create -n rag-env python=3.11成功运行，但生产服务器因安全策略禁用conda init，导致activate命令失效，整个服务停摆两天。这提醒我们：Agentic RAG的可靠性，50%取决于算法，50%取决于环境治理。后面章节会详细展开如何用conda构建可复现的生产环境，但现在请记住一个铁律——任何没经过conda env export -f environment.yml导出验证的环境，都不算完成开发。

提示：当你发现RAG系统在测试集上准确率95%，但业务方使用时频繁投诉“答非所问”，请立即检查这四个断层。它们比模型参数调整更能决定项目成败。

3. 从零构建可验证的Agentic RAG：Conda环境是第一道防火墙

很多人把conda当成“另一个pip”，这是最大的认知偏差。conda管理的是环境一致性，而pip管理的是包依赖关系。在Agentic RAG这种多组件协同的系统中，前者决定生死，后者只是细节。我见过太多团队因为跳过这步，后期付出十倍代价。

3.1 为什么必须用conda而非venv？三个血泪教训

教训一：嵌入模型与向量数据库的ABI兼容性
ChromaDB底层依赖duckdb和hnswlib，这两个库的二进制文件与Python解释器ABI强绑定。某次我们升级Python从3.10到3.11，用venv创建的新环境里，ChromaDB初始化直接Segmentation Fault。而conda env create -f environment.yml会自动匹配预编译的wheel，因为conda的channel里存着针对不同Python版本的完整二进制矩阵。实测对比：venv环境下平均修复ABI问题耗时4.2小时/次，conda环境为0分钟。

教训二：CUDA驱动与PyTorch版本的隐式耦合
Agentic RAG中，本地embedding模型（如bge-m3）需要GPU加速。但NVIDIA驱动版本、CUDA Toolkit版本、PyTorch编译版本三者必须严格匹配。conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia 会自动解决所有依赖，而pip install torch==2.3.0+cu121 --index-url https://download.pytorch.org/whl/cu121 需要手动确认驱动版本。我们在某边缘计算项目中，因驱动版本差0.1，导致GPU利用率始终卡在12%，排查耗时17小时。

教训三：跨平台路径与编码的静默故障
Windows开发、Linux部署是常态。venv在Windows下生成的Scripts/activate.bat，在Linux下根本不可执行；而conda的activate脚本是跨平台的。更隐蔽的是文件编码：Windows记事本保存的config.yaml默认GBK编码，Linux下读取直接UnicodeDecodeError。conda env export会记录平台标识，配合gitattributes强制LF换行和UTF-8编码，从源头杜绝这类问题。

3.2 生产级environment.yml的黄金配置

不要用conda list --export > environment.yml，那只是快照。真正的生产配置必须包含三层控制：

# environment.yml name: agentic-rag-prod channels: - conda-forge # 优先级最高，社区维护最活跃 - pytorch # PyTorch官方channel，确保CUDA版本精准 - defaults # 最低优先级，兜底基础包 dependencies: # 第一层：核心运行时（精确到patch版本） - python=3.11.9 - pip=24.0 # 第二层：关键基础设施（指定build string确保ABI） - chromadb=0.4.24=py311h0e5b9a7_0 # 注意h0e5b9a7_0这个build id - langchain=0.1.19=pyhd8ed1ab_0 - sentence-transformers=2.7.0=py311h0e5b9a7_0 # 第三层：pip补充（仅conda无替代品时） - pip: - langgraph==0.1.12 # LangChain生态新成员，需pip安装 - tiktoken==0.7.0 - unstructured[all]==0.10.30 # 文档解析全家桶

关键细节：

build string锁定：chromadb=0.4.24=py311h0e5b9a7_0 中的py311h0e5b9a7_0是conda build的唯一标识，确保每次安装的二进制完全一致。
channel优先级：conda-forge在前，避免defaults channel里过时的包污染环境。
pip作为补充：LangGraph等新兴库在conda-forge尚未收录时，用pip安装，但必须指定精确版本。

3.3 环境验证的三重门禁

光有yml文件不够，必须建立自动化验证机制：

第一重：启动即校验
在main.py入口处加入环境健康检查：

import subprocess import sys def validate_environment(): try: # 检查ChromaDB能否实例化 from chromadb import Client Client() # 检查embedding模型能否加载 from sentence_transformers import SentenceTransformer SentenceTransformer('BAAI/bge-m3') print("✅ 环境基础组件验证通过") except Exception as e: print(f"❌ 环境验证失败: {e}") sys.exit(1) if __name__ == "__main__": validate_environment() # 启动主服务...

第二重：CI/CD流水线强制
在GitHub Actions中添加步骤：

- name: Conda环境一致性检查 run: | conda env update -f environment.yml --prune conda activate agentic-rag-prod conda env export | grep -E "^(name|channels|dependencies)" > current_env.yml diff environment.yml current_env.yml || (echo "环境文件与实际不一致！"; exit 1)

第三重：生产环境指纹备案
服务启动时生成环境指纹：

import hashlib import json from datetime import datetime def generate_env_fingerprint(): with open("environment.yml", "r") as f: content = f.read() fingerprint = hashlib.sha256(content.encode()).hexdigest()[:12] return { "env_id": f"rag-prod-{fingerprint}", "build_time": datetime.now().isoformat(), "conda_version": subprocess.check_output(["conda", "--version"]).decode().strip() }

这个env_id会写入日志和监控系统，当线上问题发生时，运维能瞬间定位到是哪个环境版本的问题。

注意：永远不要在production环境中运行conda update --all。我们曾因自动更新langchain到0.2.x，导致AgentExecutor接口变更，整个服务雪崩。生产环境只允许conda env update -f environment.yml的受控更新。

4. ChromaDB不是“向量数据库”，而是Agent的实时记忆中枢

把ChromaDB当成普通数据库用，是Agentic RAG项目中最常见的性能陷阱。它的设计哲学不是“存得快”，而是“记得准、忘得巧、找得灵”。我优化过12个ChromaDB集群，发现83%的性能问题源于对collection设计的误解。

4.1 Collection设计：别再用单一collection塞所有文档

很多教程教你在create_collection(name="knowledge_base")里扔进政策、合同、FAQ、产品手册。这就像把所有书塞进一个没有分类的书架——找起来全靠运气。ChromaDB的collection本质是独立的向量空间，不同业务域的数据混在一起，会导致向量分布失真。我们在某银行项目中实测：将信贷政策、反洗钱指南、网点运营手册分三个collection存储后，相同查询的MRR（Mean Reciprocal Rank）从0.41提升至0.79。

正确的分层策略：

Collection名称	数据特征	元数据过滤建议	embedding模型
`policy_q3_2024`	结构化政策文档，含生效日期、适用区域	`{"region": "华东", "effective_date": "2024-07-01"}`	bge-m3（长文本优化）
`faq_sales`	短问答对，口语化表达	`{"product_line": "云服务", "question_type": "计费"}`	text-embedding-3-small（成本敏感）
`contract_templates`	法律条款，需高精度匹配	`{"jurisdiction": "上海", "template_version": "v2.3"}`	nomic-embed-text-v1.5（法律文本微调）

关键操作：创建collection时必须指定embedding_function，且不同collection可配不同模型。代码示例：

from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction from chromadb import Client # 为政策文档专用collection policy_ef = SentenceTransformerEmbeddingFunction( model_name="BAAI/bge-m3", device="cuda" # 显存充足时启用 ) client.create_collection( name="policy_q3_2024", embedding_function=policy_ef, metadata={"hnsw:space": "cosine"} # 距离度量必须明确 )

4.2 元数据过滤：比向量检索更精准的“第一道筛子”

ChromaDB的where过滤器不是锦上添花，而是救命稻草。当用户问“2024年华东区代理商返点政策”，如果只靠向量检索，可能召回2023年华北区文档（语义相似但事实错误）。而元数据过滤能在毫秒级完成硬性筛选：

results = collection.query( query_texts=["华东区代理商返点"], n_results=5, where={ "$and": [ {"region": {"$eq": "华东"}}, {"effective_date": {"$gte": "2024-01-01"}} ] } )

注意：where过滤发生在向量检索之前，它先缩小候选集，再对小集合做向量计算，性能提升可达300%。但必须遵守两个铁律：

元数据字段必须建索引：在create_collection时添加metadata={"hnsw:search_threads": 4}，否则where过滤会变全表扫描。
时间字段用ISO字符串：不要存timestamp数字，"2024-07-01"比1719801600更易索引且可读性强。

4.3 动态分片：应对千万级文档的冷热分离术

当知识库突破50万文档，单collection的hnsw索引构建时间会指数增长。我们的解法是“时间分片+热度路由”：

时间分片：按季度创建collection，如policy_q2_2024、policy_q3_2024。新文档只写入最新collection，老collection设为只读。
热度路由：用Redis记录每个document_id的月访问频次，高频（>100次/月）文档同步到hot_cachecollection，该collection用更激进的hnsw参数（{"hnsw:construction_ef": 200, "hnsw:M": 64}）换取极致检索速度。

实测数据：某保险企业知识库从单collection 200万文档，拆分为6个季度collection+1个hot_cache后：

首次索引构建时间：从8.2小时 → 1.4小时
P95检索延迟：从1200ms → 210ms
内存占用：从42GB → 18GB

4.4 容灾设计：ChromaDB崩溃时的降级保命方案

ChromaDB不是分布式数据库，单点故障会阻断整个RAG流程。我们的生产环境强制要求双通道：

主通道：ChromaDB向量检索（95%流量）
备通道：SQLite全文检索（5%流量，仅当ChromaDB不可用时触发）

实现原理：在文档入库时，同时写入ChromaDB和SQLite：

# 使用FTS5扩展的全文索引 conn.execute(""" CREATE VIRTUAL TABLE IF NOT EXISTS doc_fts USING fts5( content, title, region, effective_date, tokenize='porter' ) """) # 插入时同步写入 conn.execute("INSERT INTO doc_fts VALUES (?, ?, ?, ?)", (content, title, region, effective_date))

当Agent检测到ChromaDB连接超时（requests.exceptions.ConnectionError），自动切换到SELECT * FROM doc_fts WHERE doc_fts MATCH ? ORDER BY rank LIMIT 5。虽然准确率下降约18%，但保证了服务不中断——对业务系统而言，“慢但可用”远胜于“快但宕机”。

提示：永远在ChromaDB客户端配置连接池和超时。我们用chromadb.HttpClient(host="chroma", port=8000, timeout=(3.0, 15.0))，其中3秒是连接超时，15秒是读取超时。这个15秒阈值来自业务SLA——用户等待超过15秒就会放弃提问。

5. LangChain不是胶水，而是Agent的行为操作系统

把LangChain当成“调用LLM的封装库”，就彻底浪费了它的设计价值。它的核心是状态机抽象——将Agent的思考、行动、观察过程，映射为可编程的状态流转。我在重构某客服Agent时，发现用LangChain原生AgentExecutor比手写状态机代码减少63%的bug率，关键在于它内置了四层防护。

5.1 Tool设计：拒绝“万能函数”，拥抱“原子能力”

很多团队写Tool时喜欢一个函数包打天下：

# ❌ 反模式：过度聚合 def search_knowledge(query: str, doc_type: str = None, region: str = None): # 里面塞了所有过滤逻辑

这导致三个问题：测试困难、调试黑盒、权限失控。正确做法是遵循Unix哲学——每个Tool只做一件事：

# ✅ 正确模式：原子化Tool class PolicySearchTool(BaseTool): name = "policy_search" description = "在政策文档库中搜索，支持region和effective_date过滤" def _run(self, query: str, region: str = None, effective_date: str = None) -> str: # 专注检索逻辑 class ContractCheckTool(BaseTool): name = "contract_check" description = "检查合同模板是否符合最新法规要求" def _run(self, template_id: str) -> str: # 专注合规校验

这样设计的好处：

可组合性：Agent可以先policy_search，再用结果ID调用contract_check，形成工作流。
可观测性：每个Tool的输入输出独立记录，便于审计。
可替换性：某天发现PolicySearch太慢，只需重写policy_search这个Tool，不影响其他模块。

5.2 AgentExecutor的四大防护机制

LangChain的AgentExecutor不是简单循环，而是带熔断、限流、超时、回滚的工业级执行器：

防护一：Step Limit熔断
防止Agent陷入死循环。我们设置max_iterations=15，但关键在动态重置：当Agent调用search_tool后获得新信息，重置计数器，因为新信息可能开启新路径。代码实现：

class AdaptiveAgentExecutor(AgentExecutor): def _should_continue(self, iterations: int, intermediate_steps: List) -> bool: if iterations >= self.max_iterations: # 检查最后一步是否是search，且有新结果 if intermediate_steps and "search" in intermediate_steps[-1][0].tool: new_docs = self._extract_new_docs(intermediate_steps[-1][1]) if new_docs: # 有新信息，重置计数器 self.iterations = 0 return True return iterations < self.max_iterations

防护二：Tool Timeout限流
避免单个Tool拖垮全局。为每个Tool配置独立超时：

from langchain_community.tools import DuckDuckGoSearchRun search_tool = DuckDuckGoSearchRun( max_results=5, timeout=8.0 # 严格8秒超时 )

当搜索超时，Agent不会卡死，而是收到TimeoutError，可触发降级策略（如返回“网络繁忙，请稍后重试”）。

防护三：Output Parser容错
LLM返回的Action格式偶尔错乱（如少个括号），原生Parser会直接崩溃。我们重写Parser，加入模糊匹配：

class RobustOutputParser(OutputParser): def parse(self, text: str) -> AgentAction | AgentFinish: try: return super().parse(text) except Exception: # 尝试提取最接近的action if "Final Answer:" in text: return AgentFinish({"output": text.split("Final Answer:")[-1].strip()}, text) else: return AgentFinish({"output": "系统暂时无法处理，请重试"}, text)

防护四：Intermediate Step审计
每一步的输入输出必须持久化，这是Agentic RAG的合规底线。我们用SQLite记录：

# 表结构 CREATE TABLE agent_audit ( id INTEGER PRIMARY KEY AUTOINCREMENT, session_id TEXT, step_number INTEGER, tool_name TEXT, tool_input TEXT, tool_output TEXT, timestamp DATETIME DEFAULT CURRENT_TIMESTAMP );

当业务方质疑“为什么给出这个答案”，我们能直接回放第7步的tool_input和tool_output，证明决策链路透明。

5.3 LangGraph：当工作流复杂到LangChain原生Agent无法驾驭

当你的Agent需要并行执行、条件分支、循环重试时，LangChain原生AgentExecutor会变得笨重。LangGraph的StateGraph才是正解。以“合同风险评估”为例，需要：

并行调用：法律条款检查 + 财务条款检查 + 技术条款检查
条件分支：若法律条款有高风险，则触发人工审核流程
循环重试：财务条款检查失败时，自动降级到备用模型重试

LangGraph代码骨架：

from langgraph.graph import StateGraph, END from typing import TypedDict, List class AgentState(TypedDict): input: str legal_risk: str financial_risk: str tech_risk: str needs_review: bool def parallel_checks(state: AgentState) -> AgentState: # 并行执行三个检查 legal = legal_check.invoke(state["input"]) financial = financial_check.invoke(state["input"]) tech = tech_check.invoke(state["input"]) return { **state, "legal_risk": legal, "financial_risk": financial, "tech_risk": tech, "needs_review": legal == "HIGH" } def human_review_route(state: AgentState) -> str: return "human_review" if state["needs_review"] else END workflow = StateGraph(AgentState) workflow.add_node("parallel_checks", parallel_checks) workflow.add_node("human_review", human_review_node) workflow.set_entry_point("parallel_checks") workflow.add_conditional_edges( "parallel_checks", human_review_route, { "human_review": "human_review", END: END } )

LangGraph的价值在于：它把工作流变成可可视化、可调试、可版本化的图结构。我们用workflow.compile().get_graph().draw_mermaid_png()生成流程图（注：此处不输出mermaid代码，仅说明其用途），贴在Confluence上供全员评审——这是传统代码无法提供的协作体验。

注意：LangGraph不是LangChain的替代品，而是增强。我们90%的简单Agent用LangChain原生AgentExecutor，只有10%的复杂工作流才升格到LangGraph。过早使用LangGraph会增加不必要的复杂度。

6. 从Demo到Production：Agentic RAG的七道验收关卡

客户签验收单时，不会看你Jupyter里跑通的demo，而是盯着生产环境的七项硬指标。我在交付12个Agentic RAG项目后，总结出这七道不可妥协的关卡：

6.1 准确率关：拒绝“平均准确率”，坚持“场景准确率”

很多团队报告“整体准确率85%”，但业务方真正关心的是：“销售政策类问题准确率多少？”、“合同条款类问题准确率多少？”。我们必须按业务场景切片统计：

场景类型	样本量	准确率	主要错误类型	改进措施
销售政策	1200	92.3%	时效性错误（返回旧版）	增加effective_date元数据过滤
合同条款	850	78.1%	条款拼接错误	引入单文档验证步骤
产品FAQ	2100	96.7%	—	保持现状

关键动作：每月用真实业务问题生成测试集，通过langchain.evaluation模块自动化评测，结果直接推送到企业微信告警群。

6.2 延迟关：P95延迟必须≤1.2秒

用户等待超过1.2秒就会感知卡顿。我们用分层监控：

L1监控：HTTP请求总耗时（含网络）
L2监控：AgentExecutor执行耗时（排除网络）
L3监控：各Tool耗时分解（search_tool: 320ms, llm_generate: 410ms）

当P95超限时，按此顺序排查：

检查ChromaDB的hnsw:search_threads是否匹配CPU核心数
检查LLM推理是否启用了FlashAttention（PyTorch 2.0+）
检查unstructured解析PDF时是否启用了OCR跳过（strategy="fast"）

6.3 稳定性关：连续72小时无重启

Agentic RAG的内存泄漏常来自：

ChromaDB的persistent_client未正确close()
LangChain的ChatPromptTemplate缓存无限增长
大文件解析时未流式处理

我们的防御措施：

在FastAPI的lifespan中管理资源：

@app.on_event("startup") async def startup_event(): app.state.chroma_client = chromadb.PersistentClient(path="/data/chroma") app.state.llm = ChatOpenAI(model="gpt-4-turbo", streaming=True) @app.on_event("shutdown") async def shutdown_event(): if hasattr(app.state, 'chroma_client'): # ChromaDB无需显式close，但确保引用释放 del app.state.chroma_client

用tracemalloc每周扫描内存峰值，阈值设为512MB，超限自动告警。

6.4 可观测性关：每个请求必须有trace_id贯穿全程

没有trace_id的系统等于盲人开车。我们用OpenTelemetry注入：

from opentelemetry import trace from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter from opentelemetry.sdk.trace import TracerProvider from opentelemetry.sdk.trace.export import BatchSpanProcessor provider = TracerProvider() processor = BatchSpanProcessor(OTLPSpanExporter(endpoint="http://otel-collector:4318/v1/traces")) provider.add_span_processor(processor) trace.set_tracer_provider(provider)

关键span必须标记：

agent_start：Agent开始规划
tool_call:policy_search：具体Tool调用
llm_generate：LLM生成答案
answer_validation：答案可信度评分

当用户投诉“答案错误”，运维输入trace_id，30秒内定位到是哪个Tool返回了错误数据。

6.5 安全关：绝不让原始文档裸奔

Agentic RAG最大的安全风险是：LLM把文档里的敏感信息（身份证号、银行卡号、内部联系人）原样输出。我们的三重过滤：

Ingestion层脱敏：用presidio-analyzer在文档入库前识别并掩码PII
Retrieval层过滤：ChromaDB查询时添加where={"is_pii_masked": true}
Generation层拦截：LLM输出后，用正则扫描[0-9]{17,19}（银行卡号）、\d{18}（身份证号），命中则触发人工审核

6.6 可维护性关：新人入职2小时内能修改一个Tool

代码必须满足：

每个Tool在独立文件中（tools/policy_search.py）
文件顶部有清晰的YAML格式文档：

# tools/policy_search.py """ name: policy_search description: 在政策文档库中搜索，支持region和effective_date过滤 input_schema: query: str # 用户自然语言查询 region: str? # 可选，如"华东" effective_date: str? # 可选，ISO格式如"2024-07-01" output_schema: result: list[dict] # 包含title, content_snippet, source_url """

运行pytest tests/test_policy_search.py能100%覆盖边界条件

6.7 成本关：单次查询GPU成本≤$0.003

我们用Prometheus监控每秒GPU显存占用，结合nvidia-smi dmon -s u -d 1采集利用率，公式：
单次成本 = (GPU小时单价 × 实际使用秒数 / 3600) × (显存占用GB / 总显存GB)

当成本超标，自动触发：

降级到CPU推理（device="cpu"）
切换更小模型（bge-small-zh替代bge-m3）
启用量化（load_in_4bit=True）

最后分享一个真实经验：某次上线后P95延迟突增至2.1秒，排查发现是ChromaDB的hnsw:M参数从32误配为64，导致索引树过深。我们立刻用chroma reset重建索引，并在CI/CD中加入参数校验脚本——现在每次部署都会自动检查hnsw:M是否在合理范围（16-32）。这种从故障中沉淀的checklist，比任何架构文档都珍贵。

查看全文

http://www.gsyq.cn/news/1564726.html