当前位置：首页 > news >正文

LangSmith深度解析：打造LLM应用可观测性闭环，从入门到实战全攻略！

news 2026/6/23 11:12:15

一、为什么你需要 LangSmith？

2026 年，LLM 应用已经从「能不能跑通」进入「能不能稳定上线」的阶段。

一个典型的 LLM 应用上线后，你会遇到这些问题：

• 用户问了一个问题，模型回复了一堆幻觉，你根本不知道是 prompt 的问题还是检索的问题
• 新版本的模型效果到底好不好？有没有比旧版更差？
• 多轮对话中第三轮突然崩了，但前两轮好好的，怎么看完整链路？

LangSmith 是 LangChain 团队出品的 LLM 可观测性平台，它解决的就是上述问题。它的核心能力：追踪每一次 LLM 调用的完整链路，让你能看见模型到底在想什么。

本文我会用一个《仙逆》主题的问答系统作为贯穿案例，带你系统性地掌握 LangSmith。

二、核心概念：一张图看懂

LangSmith 的数据模型可以归纳为四层结构：

项目 (Project) └── 会话线程 (Thread) ├── 追踪 (Trace) │ ├── 运行 (Run) — 检索 │ ├── 运行 (Run) — Prompt 构建 │ └── 运行 (Run) — LLM 调用 ├── 追踪 (Trace) │ ├── ... └── ...

概念	含义	仙逆案例中的对应
Project项目	所有追踪的顶级容器，通常对应一个应用	`xian-ni-demo`—— 仙逆问答应用
Thread线程	多轮对话的一组追踪集合	“王林·修行之路” 多轮对话
Trace追踪	单次操作的完整记录	一次 “王林是如何领悟杀戮意境的？” 问答
Run运行	追踪中的单个步骤	检索知识库 → 构建 Prompt → 调用 LLM

下面我们逐层展开。

三、Run（运行）：最小的观测单元

Run 是 LangSmith 的最小粒度。每一次有意义的操作都是一个 Run，它记录了：

•输入和输出
•耗时（latency）
•Token 用量
•自定义 metadata（标签、参数等）
•Run 类型：llm/chain/retriever/tool/embedding

在我们的仙逆问答系统中，一次 LLM 调用就是一个典型的 Run：

@traceable(run_type="llm", name="通义千问")def llm_call(prompt: str, **meta) -> dict: run = get_current_run_tree() if run: run.add_metadata(meta) # 挂载自定义标签 resp = tongyi.chat.completions.create( model="qwen-plus", messages=[{"role": "user", "content": prompt}], ) return { "output": resp.choices[0].message.content, "tokens": resp.usage.total_tokens, }

在 LangSmith 面板中，你能看到这个 Run 的完整信息：输入的 prompt、模型返回的内容、耗时、消耗的 token 数，以及我们打上的 metadata 标签。

四、Trace（追踪）：把 Run 串成链路

一个 LLM 应用通常不止一步。以我们的仙逆问答为例，一次问答包含三步：

这三步在 LangSmith 中自动构成一棵Trace 树。你只需要用@traceable装饰器标记每个函数，LangSmith 会自动追踪调用关系：

@traceable(run_type="chain", name="仙逆问答") # 顶层def ask_about_xianni(topic: str): context = retrieve(topic) # 子 Run ① prompt = build_prompt(context, topic) result = llm_call(prompt) # 子 Run ③ return result@traceable(run_type="retriever", name="仙逆知识检索") # 中层def retrieve(topic: str): ...

LangSmith 会识别出ask_about_xianni是父 Run，retrieve和llm_call是子 Run，自动构建出调用树。

这样一来，当模型的回答有问题时，你一眼就能定位是哪一步出了问题：是检索没查到相关内容，还是 LLM 理解了但回答跑偏了。

五、Thread（线程）：串联多轮对话

Trace 记录单轮对话，而实际应用中多轮对话是常态。LangSmith 通过metadata来关联同一会话的多个 Trace：

# 第一轮ask_about_xianni("王林是如何领悟杀戮意境的？", thread_id="王林·修行之路")# 第二轮ask_about_xianni("王林最终达到了什么境界？", thread_id="王林·修行之路")# 第三轮ask_about_xianni("王林的古神之体有什么特别之处？", thread_id="王林·修行之路")

三轮问答各自是一条独立的 Trace，但它们共享同一个thread_id。在 LangSmith 面板中，你可以按线程过滤，看到完整的对话历史。

我们的仙逆 Demo 创建了三个线程：

线程 ID	话题	Trace 数量
王林·修行之路	王林的修炼历程	3 轮
古神·力量体系	古神一族的修炼体系	2 轮
王林与李慕婉	仙逆的感情线	3 轮

在 LangSmith UI 中按线程筛选，就能分别查看每条对话线的完整脉络。

六、Project（项目）：所有数据的分组容器

Project 是顶级容器，通常一个 Project 对应一个应用或一项业务。

设置 Project 只需一行：

os.environ["LANGCHAIN_PROJECT"] = "xian-ni-demo"

之后该应用产生的所有 Trace、Run、Thread 都会自动归入这个 Project。不同环境可以用不同 Project 隔离（如prod/staging/dev）。

七、进阶能力一览

掌握了 Project → Thread → Trace → Run 四层模型后，LangSmith 的进阶功能就很好理解了：

7.1 Datasets（数据集）

你可以把真实的用户问答保存为数据集，用于后续的评估和对比实验：

# 创建数据集client.create_dataset("仙逆-常见问题")client.create_example( inputs={"question": "王林的最终境界是什么？"}, outputs={"answer": "踏天境"}, dataset_name="仙逆-常见问题",)

7.2 Evaluation（评估）

有了数据集，就可以对不同 prompt 版本或模型进行自动化评估：

• 你用qwen-plus回答，准确率 85%
• 换成qwen-max后，准确率 92%
• 改了一版 prompt，准确率掉到 78%，立即回滚

所有这些对比实验的追踪数据都在 LangSmith 中可查、可对比。

7.3 Monitoring（线上监控）

LangSmith 支持在生产环境中设置监控告警：

• 延迟超过阈值 → 告警
• Token 消耗异常上升 → 告警
• 模型返回内容命中敏感词 → 告警

从开发到上线，LangSmith 提供了一整套可观测性方案。

八、Quick Start（5 分钟跑通）

# 1. 安装pip install langsmith python-dotenv openai# 2. 配置 .envLANGSMITH_API_KEY=lsv2_pt_xxxTONGYI_API_KEY=sk-xxx# 3. 写代码 ``````plaintext import osfrom dotenv import load_dotenvfrom langsmith import traceablefrom openai import OpenAIload_dotenv()os.environ["LANGCHAIN_TRACING_V2"] = "true"os.environ["LANGCHAIN_PROJECT"] = "my-project"@traceable(run_type="llm", name="call-llm")def call_llm(prompt): client = OpenAI(api_key=os.environ["TONGYI_API_KEY"], base_url="https://dashscope.aliyuncs.com/compatible-mode/v1") resp = client.chat.completions.create( model="qwen-plus", messages=[{"role": "user", "content": prompt}], ) return resp.choices[0].message.contentprint(call_llm("用一句话介绍LangChain"))

运行后打开 smith.langchain.com，就能看到你的第一条 Trace。

九、总结

你要解决的问题	LangSmith 对应的能力
模型回答出错，不知道哪一步出错	Trace 树逐级下钻
多轮对话断连，无法回溯完整上下文	Thread 串联追踪
换个 prompt 版本不知道怎么对比效果	Dataset + Evaluation
线上应用悄悄变差没人发现	Monitoring + Alert
团队成员各管一段，缺乏统一视角	Project 分组共享

LangSmith 本质上做了一件事：把 LLM 的黑盒调用变成了白盒链路。它不会让你的模型变强，但会让你清楚地知道模型哪里还不够强——而这恰恰是从 Demo 走向 Production 的关键一步。

传统产品经理，正在成为下个被淘汰的“传统岗位”。

过去画原型、写 PRD、跟进度的“传统技能包”，在AI时代正迅速贬值。63% 的企业转型做 AI 产品！当下的问题不再是“要不要学 AI ”，而是“如何构建 AI 产品”。

前段时间还跟字节、腾讯的资深 AI 产品经理沟通，他们反馈：在大量招人，只要有 AI 相关的项目经验，基本都能拿到面试机会，而且领导很舍得给钱，涨薪 40-60% 很正常！

接下来的产品人，得卷AI能力了！

如今AI大火，行业极速发展的背后，懂AI 产品人才却严重稀缺。这不是要你转技术岗，而是要掌握构建 AI 产品的核心方法：

如何将你的领域知识，转化为 AI 产品的核心竞争力？
如何用 AI 技术实现你的产品需求？
如何设计真正懂用户的 AI 交互体验？
……

懂AI，就是产品经理的“救命稻草”！

风口之下，与其焦虑被行业淘汰

不如先人一步享受AI技术带来的红利！

我把AI产品经理的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

（不限年龄！不限岗位！没有代码基础也能学！）

🎁现在扫码，完课还送：

《AI产品面试题库》《AI大模型应用案例集》

掌握技术+实战，快速转型！

想成为一名卓越的AI大模型产品经理，需要从技术、到项目实战的全方位转型指南！

**1）**AI产品应用原理解析，产品经理也能听懂！

对于产品经理来说，如果你不懂技术，做不了业务和AI大模型技术衔接、定义不了数据需求，是没法完整的落地一个产品的！

本次课程，专门面向产品经理人群，解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理！解析AI产品应用技术，积累大模型能力！简单易懂，不需要会代码，小白也能掌握！

大模型微调：掌握主流大模型（如DeepSeek、Qwen等）的微调技术，针对特定场景优化模型性能。学习如何利用领域数据（如制造、医药、金融等）进行模型定制
AI Agent智能体搭建：学习如何设计和开发AI Agent，实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品（如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等）

2）超全行业案例解析！

课程详细讲解现阶段，大模型在各个行业和领域的应用现状！包括：零售与电商、教育、医疗、泛娱乐、法律等等10大行业！

详细讲解案例的思路、应用场景，以及背后的技术原理、核心技术！揭秘各个行业、场景的真实现状，和未来产品的发展与机遇！

可以说，讲解完一个案例，就能积累一个AI产品实践的经验！

课程中所涉及到的实战项目，都可以直接在自己的工作中使用，让自己的产品/项目有可借鉴的成功案例！

3）AI产品经理求职专项辅导

课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词，掌握AI PM高频面试题型与回答框架；展示 AI 相关能力的关键技巧：Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验；

To B类AI产品经理：突出“行业理解 + 技术落地 + 商业闭环”能力的简历结构设计，展示项目成果；从客户需求洞察到技术方案设计，展现端到产品思维；如何评估To B AI产品的可行性、客户付费意愿与实施成本
To C类AI产品经理：拆解头部公司岗位JD，将过往尽力转化为AI产品叙事逻辑；从行业趋势、产品设计题、案例分析&数据分析题、技术理解边界等全流程辅导面试；避免无效海投、锁定最适合的AI产品岗位；

本次课程，全程直播讲解，能直接对话大佬和专业助教，不懂就问，超详细的案例，小白也能轻松get！

完课后，还赠送《AI产品经理面试题库》、《AI大模型应用案例集》！不断更新中……

适合人群：