当前位置: 首页 > news >正文

从感知AI到具身AI:人工智能的四次跃迁

子玥酱(掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

    • 引言
    • 一、第一次跃迁:感知AI时代
    • 二、感知AI最大的局限
    • 三、第二次跃迁:认知AI时代
    • 四、大模型为什么是认知革命
    • 五、认知AI依然存在天花板
    • 六、第三次跃迁:Agent AI时代
    • 七、Agent最大的变化是什么
    • 八、Agent为什么还不够
    • 九、第四次跃迁:具身AI时代
    • 十、从Agent到Embodied Agent
    • 十一、AI与现实世界的距离正在缩短
    • 十二、鸿蒙生态其实也在经历类似演进
    • 十三、未来最大的竞争已经发生变化
    • 十四、第五次跃迁可能是什么
    • 十五、完整演进路线
    • 十六、总结

引言

过去十几年,人工智能经历了几次非常明显的能力跃迁。

最早的时候:

AI只能识别

后来:

AI开始理解

再后来:

AI开始推理

而今天:

AI开始行动

很多人把这一切看成是模型参数不断变大带来的结果,但如果从更长的时间尺度去观察,你会发现:

AI真正的进化,从来不是参数的增长。

而是:

能力边界的不断扩张

从只能看见世界:到能够理解世界:再到能够规划世界:最终开始影响世界。

如果把整个发展过程串起来,会发现人工智能实际上经历了四次关键跃迁:

感知AI(Perception AI) ↓ 认知AI(Cognitive AI) ↓ Agent AI(Agentic AI) ↓ 具身AI(Embodied AI)

这四次跃迁背后,对应的是 AI 与现实世界关系的不断加深。

一、第一次跃迁:感知AI时代

很多人第一次接触AI,可能是这样:

人脸识别 车牌识别 语音识别 OCR识别

那个阶段的AI核心能力非常简单:

识别

例如,看到一张图片:

这是猫 这是狗 这是汽车

听到一句话:

转成文字

看到一张发票:

提取金额

这就是典型的:

Perception AI

即:

感知智能

那个时代最大的突破来自:

深度学习

尤其是:

  • CNN
  • RNN
  • Transformer前身

推动了计算机视觉和语音识别革命。

二、感知AI最大的局限

很多人以为:

识别成功 = 智能

实际上并不是。例如,AI看到:

一只猫

它知道:

但不知道:

猫为什么会跳上桌子

更不知道:

猫下一步想干什么

也就是说:

知道对象 ≠ 理解对象

因此,感知AI虽然解决了:

看见世界

却无法解决:

理解世界

于是第二次跃迁开始出现。

三、第二次跃迁:认知AI时代

大模型出现后,整个行业发生了一次巨大变化。AI第一次具备:

推理能力

例如,用户问:

为什么飞机能飞?

AI不只是识别文字,而是能够解释:

  • 空气动力学
  • 升力原理
  • 飞机结构

甚至进一步分析:

如果机翼变短会怎样

这意味着,AI开始构建:

世界知识体系

从:

识别信息

进化到:

理解信息

这就是:

Cognitive AI

认知智能时代。

四、大模型为什么是认知革命

过去AI:

输入 ↓ 输出

更像一个分类器,而大模型出现后:

输入 ↓ 理解 ↓ 推理 ↓ 生成

形成完整链路,例如,用户说:

帮我制定减肥计划

AI需要理解:

  • 用户目标
  • 时间限制
  • 饮食结构
  • 运动安排

然后进行综合规划,这种能力已经远超传统AI。

五、认知AI依然存在天花板

很多人觉得:

GPT已经接近AGI

但实际上,认知AI有一个天然限制。它只能:

思考

却无法:

行动

例如,AI知道:

房间很乱

但无法整理房间,AI知道:

会议应该安排在下午

但无法真正完成安排,因为:

理解世界 ≠ 改变世界

于是第三次跃迁开始出现。

六、第三次跃迁:Agent AI时代

Agent出现后,AI第一次获得:

执行能力

传统大模型:

给答案

Agent:

做事情

例如,用户说:

帮我订机票

Agent会:

搜索航班 ↓ 比较价格 ↓ 选择方案 ↓ 完成预订

整个过程不再依赖用户逐步操作,而是:

目标驱动

这就是Agent革命。

七、Agent最大的变化是什么

很多人认为:

Agent = 大模型 + 工具

这只是表面,真正变化在于:

Task Runtime

过去:

一次提问 一次回答

现在:

长期任务 持续执行

例如:

整理市场调研报告

可能持续:

  • 搜索资料
  • 汇总内容
  • 分析数据
  • 生成结论

整个生命周期都由Agent管理。

八、Agent为什么还不够

Agent已经能够操作:

  • 浏览器
  • API
  • 软件系统

但它仍然有一个限制:

数字世界

例如,Agent可以:

订外卖

却不能:

把外卖拿进屋

可以:

规划仓库路线

却不能:

搬运货物

原因很简单,Agent缺少:

身体

于是第四次跃迁开始出现。

九、第四次跃迁:具身AI时代

具身AI最大的变化:

拥有行动载体

例如:

  • 机器人
  • 无人车
  • 无人机
  • 智能设备

此时AI不仅能决策,还能执行形成:

感知 ↓ 理解 ↓ 规划 ↓ 行动 ↓ 反馈

完整闭环,这也是为什么很多研究者认为:

具身智能是AI走向现实世界的入口。

十、从Agent到Embodied Agent

未来的机器人架构越来越像:

LLM ↓ Agent ↓ World Model ↓ Policy ↓ Robot Runtime

其中,LLM负责:

理解目标

Agent负责:

任务规划

世界模型负责:

预测未来

强化学习负责:

优化行为

最终机器人完成动作。

十一、AI与现实世界的距离正在缩短

回顾整个发展过程,第一次跃迁:

AI看见世界

第二次跃迁:

AI理解世界

第三次跃迁:

AI操作数字世界

第四次跃迁:

AI进入物理世界

每一次跃迁,本质上都在缩短:

AI与现实的距离

十二、鸿蒙生态其实也在经历类似演进

如果观察鸿蒙的发展路径,会发现非常相似。

最开始:

设备连接

后来:

状态同步

再后来:

任务流转

未来:

AI Runtime

可能直接接管:

  • 应用调度
  • 设备协同
  • 用户任务

本质上也是:

感知 ↓ 理解 ↓ 执行 ↓ 协同

的发展过程。

十三、未来最大的竞争已经发生变化

过去行业竞争:

谁模型更大

后来:

谁推理更强

未来:

谁完成任务能力更强

用户真正关心的不是:

AI会说什么

而是:

AI能做什么

这是根本性的变化。

十四、第五次跃迁可能是什么

如果继续向前看,很多研究者开始讨论:

Collective Intelligence

即:

群体智能

未来可能不是:

一个AI

而是:

成千上万个Agent

共同协作,例如:

Agent A负责规划 Agent B负责执行 Agent C负责监督 Agent D负责优化

形成:

Agent Network

就像互联网连接人类一样,未来网络可能连接智能体。

十五、完整演进路线

如果把AI的发展历史画成一条线,最终会变成:

Perception AI ↓ Cognitive AI ↓ Agent AI ↓ Embodied AI ↓ Collective AI

对应能力分别是:

识别 ↓ 理解 ↓ 执行 ↓ 行动 ↓ 协同

这是整个行业正在走的方向。

十六、总结

如果一句话总结人工智能的四次跃迁:

AI正在从“观察世界”走向“参与世界”。

第一次跃迁:

看见世界

第二次跃迁:

理解世界

第三次跃迁:

操作世界

第四次跃迁:

改变世界

从感知AI到具身AI,变化的不只是技术架构。

更重要的是:

AI在世界中的角色

过去:

工具

后来:

助手

现在:

执行者

未来:

协作者

最终你会发现:AI发展的主线从来不是模型越来越大。

而是:

从被动响应,到主动行动。

而具身AI,正是这条演进路线中最关键的一次跨越。

http://www.gsyq.cn/news/1433856.html

相关文章:

  • Ubuntu编译报错磁盘空间不足?别急着删文件,手把手教你无损扩容/home目录(附fstab配置详解)
  • Hyper-V DDA图形化工具:告别命令行,5分钟完成设备直通配置
  • VASP计算跑完了,OUTCAR、CONTCAR、DOSCAR...这些输出文件到底怎么看?手把手教你提取关键结果
  • “人工智能+零售业”面临的主要挑战
  • 保姆级教程:用Docker Compose一键部署WVP-PRO+ZLM+录像服务,告别繁琐配置
  • 如何5分钟搭建专业级在线LaTeX写作环境:WebLaTeX完全指南
  • 5分钟永久备份:GetQzonehistory让你轻松导出QQ空间所有历史说说
  • 原神60帧限制终于被打破!这份完整指南教你如何免费解锁120帧流畅体验
  • 别再被1e-9搞懵了!Python科学计数法实战避坑指南(附数据处理案例)
  • 终极指南:使用XUnity.AutoTranslator打破游戏语言障碍的完整解决方案
  • AI教材编写必备:低查重AI工具助力,1小时生成10万字专业教材!
  • Fast-GitHub浏览器扩展架构解析:智能路由与DOM注入技术实现GitHub加速方案
  • GPU加速分子动力学模拟:原子-离子相互作用优化
  • Module Pool Programming,老派 Dynpro 程序怎样写出新味道
  • 抖音批量下载终极指南:5分钟实现个人主页视频一键保存
  • PCL2启动器Java环境配置与Mod加载机制深度解析
  • 别再只会用unittest了!用Pytest+Requests给你的接口自动化测试升个级(附完整项目结构)
  • 大模型安全测试(Red Teaming 越狱测试):如何诱导 AI 说错话?
  • MTK设备救砖终极指南:开源神器MTKClient完整教程
  • 无盒无卡爱马仕 / 香奈儿 / LV / 迪奥 / 古驰奢包能回收吗?成都本地回收实测真相! - 奢侈品回收测评
  • AI风口来袭!小白也能抓住机遇,收藏这篇看懂500万人才缺口背后的真相!
  • JGB37-520(12V 带编码器)电机 铭牌参数完整详解
  • 天津乐修漏水检测:滨海新区卫生间免砸砖防水公司推荐几家 - LYL仔仔
  • 从零构建ModelOps管道:AI模型工业化部署与运维实战指南
  • 基准测试(Benchmark):读懂 MMLU, HumanEval, C-Eval 榜单背后的意义
  • 2026年湛江市CPPM报名十大核心问题全流程答疑 - 众智商学院课程中心
  • 2026宁波婚嫁三金/旧金饰回收避坑指南!5家本地门店实测,旧款不折价认准这一家 - 宁波早知道
  • 终极暗黑3鼠标宏工具D3KeyHelper:5分钟快速配置完全指南
  • 抖音批量下载神器:5分钟掌握无水印视频高效下载
  • DLSS Swapper深度解析:5分钟实现游戏DLSS智能管理的一站式解决方案