当前位置: 首页 > news >正文

突破性构建:Kiro和Claude交付了我要求的东西但不是我想要的

在Agentis Lux上的部署成功。绿色检查,没有错误,现场直播。我扫描了我自己的网站,抓取了一张“之前”的照片,进行前后对比,扫描仪给出了62分。

它还给下一个站点62。还有下一个。同样的分数,同样的发现,每次都一样,包括在一个没有结账按钮的网站上发现一个“结账按钮”。

构建成功了。它运行的是我几周前写好并放弃的扫描仪版本。从那时起,我构建的所有东西都被搁置在回购协议中,被合并,被测试,没有被部署。部署管道仅在5月份运行了一次,再也没有运行过。我从来没有注意到!

因此,这个实时网站是一个自信的、经过良好测试的、完全绿色的存根。

技术上,没有出错。这是我一直在思考的部分...结束了...结束了。

小心空隙!
我和人工智能代理一起建造。我导演,他们创作。一个代理编写基础结构,另一个审计它,我打电话和合并。又快又好,失败模式也不是我预想的那样。

我预料代理人会犯错误。他们大多不会。相反,当我要求的不是我想要的时,他们所做的是正确地构建我所要求的。错误不在代码中。bug存在于我的指令和我的意图之间,代理用字面上最真实的东西来填充这个间隙。这个东西,上下文工程,出现在Anthropic的演讲中AWS峰会.

在这种情况下,是人类管弦乐队...我会反击。“你说部署,但管道从5月起就没有运行过,你的意思是重新部署当前代码吗?”代理说“部署成功”是因为部署确实成功了。它回答了我提出的问题。我问了一个明显在我盲点上的错误问题。

大约一周内,我在一个项目中碰到过四次这种情况。每次都是一样的形状。

四次它是正确的和错误的
发货的存根。每一个网站都有62个回复,土拨鼠日得分。基础设施是真实的,测试是绿色的,部署是有效的。它只是部署了我留下的代码。“部署好了吗”是真的。“我构建的东西部署了吗”是我忘记问的问题。【教训:不要假设。]

三扇门,其中一扇是真的。我的扫描器接受三种输入:URL、代码报告、API规范。界面为他们显示了三个选项卡。干净,明显,正是设计所暗示的。只有网址一是有线的。另外两个是根据我给出的规范构建的,它描述了三个选项卡,后来我决定首先只提供URL扫描,不再更新界面来匹配。因此,一个访问者点击“API spec”,输入一些东西,然后点击一面礼貌的墙。标签是正确的。我的瞄准镜已经移动了,标签还没听说。【教训:Kiro和Claude读不懂我的心思!]

这些发现只有工程师才能读懂。我的所有观众都是用人工智能构建的人,他们可能不知道<ul>是。扫描仪的发现说了类似“没有用ul或ol包装的重复兄弟元素”的事情。这是一个正确的发现。对我为之打造工具的人来说也是没用的。我要求的是准确的、技术性的、真实的发现。我拿到了。我忘了问“我的实际用户能读这个吗?”[经验:不要忘记你是在为最终用户构建,一个真实的人,而不是一个理论上的人。]

这张牌什么也没变。一个社会卡路线,建立,部署,工作。我保存了图像,得到了一个零字节的文件。该路径从网络上获取了三种字体,当其中一种返回时是空的,而不是彻底失败,图像渲染器得到了垃圾,什么也没有产生。本来应该处理字体错误的catch块没有被触发,因为fetch没有失败。它空手“成功”了。错误处理对于它所监视的错误是正确的。真正的失败者从一扇没人看着的门走进来。[教训:不要跳过测试实时工作流。]

模式
每一个都通过了自己的测试。该部署已部署。标签符合规格。这些发现是准确的。卡路线跑了。如果我相信“它能工作”,这四个都可以发货了。

抓住他们的不是更好的提示,也不是更聪明的代理人。我看着实际的输出,问了一个比代理能问的更简单的问题。不是"它跑了吗"“这是我想要的东西吗?”www.jpbara.com如果你费心扫描第二个站点,每个站点上的62都是可疑的。三个标签是一个陷阱,如果你点击那些你没有完成的。如果你是作为你自己的用户而不是作为编写它的工程师来阅读它,那么一个发现是没有用的。

代理针对您所说的内容进行优化。人在回路中的全部工作就是不断地检查你所说的和你所想的,因为代理人看不到区别,而你是唯一能看到的人。

为什么我一直在做
这读起来好像我还没有学到我一直在写的东西。那么,是还是不是?代理人在几天内做了几周的实际工作。审计代理发现了测试遗漏的真正错误。基础设施是牢固的。我不会还回去的。

但是这个模型是“我导演,他们制作”而不是“他们制作,我观看”是有原因的方向不是一次性的指令。这是一种持续的行为,将工作与意图对立起来,并说“接近了,但不是这样。”代理人是非凡的“正是你要求的。”知道该问什么,并注意到答案在技术上是完美的,但却是错误的,这仍然是我的一部分。

部署成功。不是我想象中的部署。现在我知道要多看两眼。

这四个都来自building Agentis Lux,一个代理就绪扫描仪。是的,一个告诉其他人代理不能读取的工具发送了一个存根,隐藏了一个损坏的标签,并呈现了一个空卡。如果你想看我不停地抓我自己,这是公开的

http://www.gsyq.cn/news/1565179.html

相关文章:

  • p075yi情数据可视化分析系统-django2(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)
  • Adobe-GenP 3.0:5分钟激活Adobe全系列软件的终极指南
  • SAGER框架:从静态匹配到动态策略的智能推荐系统演进
  • 龙井茶叶店靠谱商家测评排名,选购避坑指南,实力测评 - 工业品网
  • OpenClaw GPT-5.4报错修复:语义拦截与请求重写实战
  • CentOS 8下Nginx安装的三大路径与安全基线实践
  • Gemini 3.1 Flash本地部署实操:Ollama+Open WebUI零门槛运行指南
  • AI应用注册安全深度解析:从无验证风险到多层防护实战
  • NXP IEC60730B安全库v4.4:Cortex-M0嵌入式系统功能安全实战指南
  • 国产M2.5模型替代Claude Opus实战:OpenAI兼容迁移指南
  • Sunshine游戏串流服务器:3步搭建你的私人游戏云
  • P89LPC924/925模拟比较器与看门狗配置实战及避坑指南
  • Python计算列表平均值的5种方法与工程选型指南
  • Spark 大数据入门——从零搭建分布式计算环境
  • 5个可落地的AI变现用法:零代码、免费平台、7分钟见效
  • OpenClaw:轻量级AI工作流引擎,直连飞书微信实现私有化智能响应
  • 2026西安元气玛特口碑推荐 价格透明避坑攻略 - myqiye
  • 如何让微信聊天记录不再消失?这个工具让你永久保存每一段珍贵对话
  • Navicat密码解密工具:专业数据库连接密码恢复解决方案终极指南
  • 嵌入式GUI开发实战:emWin多层显示与输入系统配置详解
  • 饰品AI生图企业客户口碑力荐,高认可度品牌盘点 - myqiye
  • RaTA-Tool:基于检索增强的多模态大模型工具选择框架解析
  • 张量网络在机器学习中的应用:从高维数据压缩到模型可解释性
  • Steam成就管理器实战指南:高效管理游戏成就的技术解析
  • Qwen 3.6-27B本地部署实战:vLLM优化、长上下文对齐与PLC智能体落地
  • DSP5685x音频Codec低层API实战:阻塞/非阻塞模式与DMA驱动详解
  • 2026婚宴酒店报价红黑榜 五大机构深度解析不花冤枉钱 - myqiye
  • Selenium架构深度解析:从WebDriver协议到自动化测试框架设计
  • 终极AMD处理器性能调优指南:掌握SMU调试工具的专业技巧
  • Java Playwright自动化测试:高级元素定位策略与实战技巧