当前位置: 首页 > news >正文

LangChain / LangGraph、MCP、Harness Engineer 与 Claude Code 的对应关系 - 若

先记一张「层次图」

┌─────────────────────────────────────────────────────────┐
│ Harness Engineer(评测工程) │
│ 测:好不好、稳不稳、会不会 regression │
└───────────────────────────┬─────────────────────────────┘
│ 评测对象
┌─────────────────────────────────────────────────────────┐
│ Agent 产品 / 应用(如 Claude Code、Cursor Agent) │
│ LangGraph 层:编排、循环、状态 │
│ LangChain 层:LLM 调用、Prompt、Tool 封装 │
└───────────────────────────┬─────────────────────────────┘
│ 调工具
┌─────────────────────────────────────────────────────────┐
│ MCP(工具连接协议) │
│ GitHub / DB / Filesystem / 自定义 Server │
└─────────────────────────────────────────────────────────┘

三者不在同一层,不是互相替代,而是 构建 → 连接 → 评测 的关系。


1. 各自核心区别

  LangChain LangGraph MCP Harness Engineer
是什么
LLM 应用 工具库/SDK
Agent 编排引擎
工具 连接协议
工程角色/方法论
解决啥
怎么调模型、拼 prompt、接 RAG/Tool
怎么跑多步、有状态、可分支的 Agent
怎么统一接外部系统
怎么系统化  AI 系统
类比
积木零件
流水线/状态机
USB 接口标准
质检部门 + 自动化测试平台
产出
Chain / Agent 代码
可运行的 Agent 图
Tool/Resource 服务
Dataset、Metrics、Report
关心
功能能不能实现
流程怎么跑
工具怎么接
质量可不可信、可不可回归

LangChain vs LangGraph(常一起出现,但职责不同)

LangChain → 「零件」:ChatModel、Prompt、Retriever、Tool wrapper
LangGraph → 「装配 + 运行」:节点、边、State、循环、checkpoint
  • LangChain:偏 构建块(一次调用、链式组合)
  • LangGraph:偏 运行时(Agent 循环、条件路由、持久状态)

L4 里手写的 run_fc_loop,在工程上相当于 极简版 LangGraph 节点循环

MCP vs LangChain/LangGraph

LangChain/LangGraph → 应用内部怎么组织 Agent
MCP → Agent 和外部世界怎么说话(跨进程/跨服务)
  • MCP 不是 Agent 框架,管 loop、不管 state
  • MCP 只定义:Tool / Resource / Prompt 怎么 标准化暴露和调用

Harness Engineer vs 上面三者

LangChain/LangGraph/MCP → 都在「造系统、接系统」
Harness Engineer → 在「验系统」

Harness 工程师关心:

  • 给定 Task + Dataset → 自动跑批
  • 记录 trajectory → 自动打分
  • 出 JSON/CSV/HTML → 跨版本 regression

不是框架,是职责 + 一套工程能力(你做的 L3/L4 就是这套能力的 mini 版)。


2. Claude Code 对应起来是什么

Claude Code 是一个 Agent 产品(coding agent),不是 Harness,也不是 MCP 本身。可以这样拆:

层次 Claude Code 里对应什么
LangChain 层
Claude API 调用、system prompt、内置 tool 定义(Read/Write/Bash/Grep…)、消息格式
LangGraph 层
Agent 主循环:读任务 → 规划 → 调 tool → 看结果 → 再规划 → 直到完成
MCP 层
用户可挂 MCP Server(GitHub、Sentry、数据库等),扩展 Claude Code 的工具集
Harness 层
Anthropic 内部评测团队 + eval 流水线(你不直接使用,但在测 CC 质量)

更直观的映射

Claude Code 用户看到的:
「帮我把这个 repo 的测试修好」
[Agent Loop] ← LangGraph 层(编排)
Read / Edit / Bash ← LangChain 层(内置 tools)
可选:MCP GitHub ← MCP 层(外部扩展)
改代码、跑测试、给总结
 
Claude Code 用户看不到的:
[Harness] ← 发布前跑 thousands of coding tasks
success rate / regression / tool misuse 等指标

3. 用「Claude Code 修 bug」走一遍四层

1. Harness(评测侧,内部)
Task: "给定这个 bug repo,能否修好测试?"
Metric: 测试是否通过、tool 是否误删文件、步数是否爆炸
 
2. Claude Code(产品 / Agent)
Agent loop 决定:先 Read 文件 → 再 Grep 报错 → 再 Edit → 再 Bash 跑测试
 
3. LangChain 式能力(内置)
封装:怎么调 Claude、怎么 parse tool_calls、怎么拼 messages
 
4. MCP(可选扩展)
接 GitHub MCP:直接读 PR、建 issue
接 Sentry MCP:拉线上报错

4. 和 Cursor Agent 的类比(你正在用的)

  Cursor Agent Claude Code
LangGraph 层
Agent 循环(plan → tool → observe)
同类 Agent 循环
内置 Tools
Read/Write/Grep/Shell/Task…
Read/Write/Bash/Grep…
MCP
支持 MCP servers
支持 MCP servers
Harness
Cursor 内部 eval(Bugbot、benchmark 等)
Anthropic 内部 eval

你现在的 L4 Agent Harness,是在 学习 Harness Engineer 做的事 —— 用 mini 数据集和 rule metrics,复现「测 Agent」而不是「造 Claude Code」。


5. 一句话对照表

概念 一句话 Claude Code 对应
LangChain
LLM 应用的零件库
API + prompt + 内置 tool 封装
LangGraph
有状态的 Agent 编排引擎
主 agent loop(多步 reasoning + acting)
MCP
外部工具的标准插口
可配置的 MCP servers
Harness Engineer
给 Agent 建自动化考试系统
Anthropic 内部评测;你学的 L3/L4 是同一类能力

6. 核心结论

造 Agent → LangChain + LangGraph(+ 产品如 Claude Code)
接工具 → MCP
测 Agent → Harness Engineer
  • Claude Code ≈ 一个已经造好的 Coding Agent 产品(内含 LangGraph 式 loop + LangChain 式 tool 封装 + 可选 MCP)
  • Harness Engineer ≈ 不负责写 Claude Code,负责证明 Claude Code 好不好、改 prompt/模型后有没有变差
  • MCP ≈ 给 Claude Code 加新能力的外接协议,不是 Agent 本身
  • LangGraph ≈ 若你自己从零写 Claude Code,用来实现「循环 + 状态 + 路由」的那一层

学 L4 Harness 的价值:即使将来 Agent 跑在 LangGraph 上、工具接 MCP,评测层(trajectory + metrics + regression)依然需要,而且往往要你自己建——这就是 Harness Engineer 的核心工作。

http://www.gsyq.cn/news/1573010.html

相关文章:

  • FitGirl游戏启动器:3个技巧让你轻松管理游戏收藏
  • Mac NTFS读写终极指南:免费开源解决方案Nigate完整使用教程
  • 2026年天津西青区汽车购车与维保一站式服务深度选购指南 - 年度推荐企业名录
  • 2026广州企业搬迁优选指南|办公室/工厂/商铺搬迁,政企认可服务商汇总,适配写字楼工厂门店搬迁 - GrowthUME
  • 企业级Wi-Fi认证排障:EAP-TTLS与MSCHAPv2实战指南
  • 用Python+Droplet+cron自建Claude API中转系统
  • Nexus Mods App终极指南:轻松管理游戏模组的智能解决方案
  • RSAS漏洞扫描实战:五大反人类设计避坑与高效工作流指南
  • Go数学计算避坑指南:精度、溢出与类型安全实战
  • 参与式设计在AI伦理治理中的应用:从FAccT会议看社区共治实践
  • 2026湘潭婚车租赁避坑测评|行业通病、选购标准与商家横向对比 - 百航
  • 大语言模型语用能力评估:揭示“听”与“说”之间的推理不对称性
  • DeepSeek核心技术解密:工业级大模型落地的工程范式
  • 解锁B站视频离线观看新体验:Python下载工具全面解析
  • 2026 年乌兰察布装修怎么选靠谱机构?博雅装饰实用选择指南 - 资讯报道
  • DeepSeek-V4指令级Token管理与动态稀疏注意力实战解析
  • Ubuntu 18.04 安装 MongoDB 实战指南:系统兼容性与底层依赖修复
  • Navicat无限试用终极指南:macOS版14天限制完整破解方案
  • 2026 年 6 月苏州金凯威再生资源:全品类空调回收业务详解 上门免费拆除当场结算 - GrowthUME
  • 2026 年 6 月浪琴售后实地考察报告,覆盖全国 60 余家门店 - 浪琴中国服务中心
  • 2026手机拍证件照保姆级教程:详细拍摄步骤+免费小程序APP推荐,一次过审 - 办公小帮手
  • Trae BaseURL 开放:构建可控可审计的本地AI编程基础设施
  • 2026渭南空调维修公司排名|本地口碑好的正规上门平台推荐 - 邻家快修
  • 拒绝压价套路!2026 南京钻石回收正规门店 TOP5 甄选攻略 - 讯息早知道
  • 长沙不坑人的道路故障搭电服务避坑指南 - 资讯速览
  • 2026 年 6 月浪琴中国区维修门店优化,地址电话完整版指南(北京上海广州深圳网点地址名录公示) - 浪琴中国服务中心
  • 上海启库供应链|专业塑料托盘租赁,一站式仓储物流带板运输共享服务 - 资讯报道
  • 2026沈阳卖黄金全攻略:实测多家回收店,看懂行情躲开虚假高价 - 奢侈品回收评测
  • 阿里云ECS部署Nginx国密SSL证书实战:Tongsuo编译与360浏览器兼容性全解析
  • 2026本地部署大模型:显存带宽、CPU指令集与NVMe存储三大核心配置逻辑