当前位置：首页 > news >正文

收藏！小白程序员必看：AI职业选择深度解析与避坑指南

news 2026/6/17 21:27:39

本文深入探讨了AI相关职业路径，涵盖AI基础设施、大模型数据工程、评测工程、具身智能等多个方向。作者详细分析了具身智能领域的挑战与现状，建议谨慎选择。同时，文章重点介绍了AI基础设施工程师的职责与层级，包括算子优化、编译器研发、分布式系统等，并指出学历在AI Infra领域的重要性。最后，作者推荐解决方案工程师和Agent harness工程师作为更务实的选择。对于想要进入AI领域的小白程序员，本文提供了宝贵的职业规划参考和避坑建议。

本文详细解释了关于AI相关职业选择的思考。

以下是我经过调研后得出的方向，但后文会详细阐述我会淘汰哪些部分，以及为什么。

我观察到的几个方向

AI Infra / AI 基础设施工程

构建分布式训练平台，做资源调度与 DevOps，再往上走就是主管公司 AI 基础设施。

大模型数据工程

面向训练、评测、应用的数据管线，包括：

采集
清洗
去重
标注
质量控制
样本增强
数据分布治理

Benchmark 评测工程

设计任务集、评测集、指标体系、红队测试、回归用例和对比平台。

核心不在“手工测试”，而在于把模型质量体系工程化。

具身智能数据工程师

做数据采集、清洗、切片、标注、质检、存储、版本管理、数据回放、训练数据读取接口，让算法团队可以稳定拿到高质量数据训练模型。

具身智能仿真工程师

使用 Isaac Sim、Gazebo、MuJoCo、Unity、Unreal 等平台搭建仿真环境；导入机器人 URDF / SDF；调整关节、碰撞、摩擦、传感器；做 RGB、深度图、LiDAR、IMU 等传感器仿真；批量跑实验；支持 Sim2Real，把仿真中训练出的策略迁移到真实机器人。

SIT 的机器人仿真岗位其实就很典型：维护多平台仿真环境、设计机器人 / 环境 / 传感器 / 物理配置资产、调物理参数、做传感器仿真、支持 Sim2Real、接 ROS / ROS2、自动化实验。

具身智能评测工程师

设计 benchmark、测试任务、评分指标、自动化评测脚本、失败案例分析、测试报告。

比如具身 VLA 测评岗位，通常会要求构建多维度、可量化的 benchmark，覆盖感知、认知、规划、控制等链路。

仿真岗位里也经常包含 benchmarking 和系统级评测，因为仿真本身就是测试模型的重要平台。

高性能计算工程师

高性能计算工程师处于 AI 工程化的金字塔尖，主要负责：

算力芯片底层的性能压榨
跨节点通信优化（如 NVLink 机制）
深度学习框架的底层重构

解决方案工程师（FDE）或前沿部署工程师

这是衔接客户与研发的桥梁。

把客户需求转化为产品，提供 demo 说服客户，在客户侧部署，对研发侧做反馈与协调。

Agent harness 工程师

Agent = Model + Harness。

这个方向更多是在构建 AI 与现实世界之间连接的系统、工具和桥梁。做产品会很关键。

可以分成三个大方向

我觉得大体上可以拆成三个方向：

具身智能方向
AI Infra 方向
AI 应用方向

关于具身智能

关于具身智能，不得不说的是，这绝对不是短期内的好方向。

具身智能远未成熟。现在即使是最好的模型，实际执行特定任务的成功率也还不高。而机器人在现实场景中的容错极低，做错一点带来的后果也不小，比如摔坏杯子、打烂东西。

如果想提升这个成功率，而且仅仅只是单任务成功率，就需要克服以下问题：

硬件问题：维护、损坏、灵活度等。
数据严重不足：即使想从人类视频数据学习，也需要先拥有一个对世界有基本认知的模型。想实现通用性，数据会成为严重瓶颈，长尾场景太多了，具身智能注定只能先从特定工业领域优化下手。
Gap 问题：仿真环境与实机表现差距很大，仿真环境和现实环境差距大，不同实机机器人之间也有 gap。想实现迁移和泛化，还有很多问题要攻克。
仅靠视觉不够：只靠视频数据、只靠视觉，并不足以实现通用具身智能。很多场景需要预判，不仅需要物理规则，还需要识别不同对象的意图。再进一步，人闭上眼睛也能从口袋拿东西、能挠痒，这说明我们的大脑即使闭眼也对空间有认知，而现在的模型做不到。触觉、听觉、嗅觉在一些场景下也很重要，而这些都需要大量高质量数据。
安全性：机器人犯错的后果太大。

以上这些问题注定了具身智能无法在 3 到 5 年内成熟，甚至 10 年都难说。

所以我觉得，不适合过早进入这个领域。

而且具身智能不像 LLM，LLM 依赖网络传播，机器人不行。一方面你需要庞大的机器人基数，而机器人基数又依赖于具身智能是否已经能解决现实任务，这本身就是一个循环。

也就是说，具身智能即使到达 GPT-3 时刻，它的扩张也会是缓慢的。

到那个时候再入局，依旧会有海量机会。

而且机器人未必是人形，各种各样形态的专用机器人都会出现，自动驾驶就是其中一个。

这也是我为什么不太建议别人现在去从事具身智能行业，除非你真的非常有热情，愿意赌。

因此，我们可以先淘汰掉和具身智能强绑定的方向。

关于 AI Infra

AI Infra 有很多子方向，我们需要从最底层开始解构。

从芯片往上看

AI 芯片有很多类型：

针对不同用途与模型底层，会有不同优化。芯片之上还需要有汇编与指令集。

再往上是并行计算框架，比如：

CUDA
CANN

再往上是 AI 编译器与 DSL，比如：

Triton
TVM
XLA

再往上是分布式通信：

InfiniBand
RDMA
NCCL
HCCL

然后是深度学习框架：

PyTorch
TensorFlow / JAX
MindSpore

再到推理与训练加速：

推理引擎：vLLM、SGLang、TensorRT
算子融合与量化
训练加速：DeepSpeed、Megatron-LM

再往上是资源调度与虚拟化、容器化编排：

Kubernetes
Docker
MIG
vGPU

再上层，就是一些跟传统后端和应用更相关的东西了。

一个我认为必须避免的方向

不要尝试去做与 GPU 不相关的泛 AI 应用工程，比如那种把 AI 集成到企业里的宽泛岗位。

因为这里会导致竞争飞速加剧。比如所谓 AI 应用工程师，这里面会挤满很多转岗过来的人，竞争激烈程度会非常接近前端和 Java 后端。

实际上，后端转向 AI Infra 是相对容易的，这也是一个不错的长期方向。

不同层级对应的岗位

算子 / 高性能计算（HPC）

关键词：

GPU / NPU / LPU 架构
汇编指令集
CUDA
CANN

核心职责：

针对特定芯片架构开发和优化深度学习算子，比如矩阵乘法、卷积，手写内核代码，解决算力瓶颈。

AI 编译器研发

关键词：

Triton
TVM
XLA
MLIR
LLVM

核心职责：

做图层面的优化，比如算子融合、显存优化、底层代码生成，以及图编译器与不同硬件后端的对接。

大模型训练 / 分布式系统

关键词：

InfiniBand
RDMA
NCCL / HCCL
DeepSpeed
Megatron-LM
PyTorch / JAX

核心职责：

设计并优化分布式训练策略，比如数据并行、张量并行、流水线并行等；解决多机多卡通信带宽瓶颈；优化 checkpoint 读写；保证长时间训练的容错与稳定性。

AI 部署与推理服务加速（推理引擎）

关键词：

vLLM
SGLang
TensorRT
ONNX Runtime
算子融合
KV Cache 优化
模型量化（FP8 / INT8 / INT4）

核心职责：

针对业务场景对模型进行极致的推理加速，降低 token 吐出延迟，提升吞吐量。

AI 平台 / 云原生调度工程师

关键词：

Kubernetes
Docker
MIG
vGPU
Golang
传统微服务架构

核心职责：

管理成百上千张显卡资源，实现 GPU 资源的虚拟化隔离、池化、弹性扩缩容、任务排队调度，以及 AI 训练平台的后端接口开发。

一个很现实的问题

这些层之间其实是互相可以融合的，向上向下都可以。

但我也联系了多个 AI Infra 行业从业者，他们普遍认为这个行业对学历要求高。如果没有学历，就必须在著名开源项目上做核心贡献，而且往往不是一年内就能做到的，进大厂的难度也会更高。

我的现实结论

综上所述，我目前认为：

解决方案工程师（FDE）或前沿部署工程师
Agent harness 工程师

才是更务实的选择。

最后

如果说程序员已经是高薪职业，那么干AI的程序员，就是高薪中的高薪。

现在的市场，已经用数据给程序员指明了方向：学AI大模型，就是冲刺高薪的最优解！

看着身边越来越多的同行转型大模型、拿到高薪offer，很多人心里都动了心，但真正的难题来了：零基础小白不知道从哪入门？有基础的程序员找不到系统学习路径？实战项目练手无门？面试不知道考什么？

别慌！今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包，覆盖从入门到实战、从理论到面试、从基础到进阶的全流程，所有资料均已整理归档，无冗余、无套路，免费分享给每一位想抓住AI风口的程序员和小白！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.gsyq.cn/news/1543907.html