当前位置：首页 > news >正文

AI小白必看！40分钟搞懂大模型、Token、API、Prompt等核心概念

news 2026/6/16 8:17:42

本文系统讲解了AI领域的基础概念包括大模型LLM的工作原理、关键参数、幻觉问题以及Token、API、Prompt、温度等使用要点。此外还介绍了Agent、Function Calling、Skill、微调和RAG等技术并针对不同场景给出了模型选型建议。文章旨在帮助读者建立完整的AI概念地图避免被市场信息碎片化误导从而更好地理解和应用AI技术。今天中午12点我做了一个AI咨询。客户是一个计算机专业的学生研究生方向是知识图谱、RAG、深度学习这些AI领域。按说计算机/AI相关专业的学生对这些概念应该比普通人清楚对吧结果聊了40分钟我发现她对这些基础概念的理解其实和我平时接触到的很多小白差不多——大模型是什么Token是什么Agent和大模型有什么区别API和Prompt又是什么微调是什么全是模糊的。我意识到一个很残酷的事实哪怕你是相关专业的学生如果不是在这个行业里每天泡着这些概念也只是一个个听过但不太懂的词。所以有了这篇文章。我想系统地把这些概念讲清楚。不是那种教科书式的定义轰炸而是从最底层开始一层一层往上搭让你看完之后脑子里有一个完整的概念地图。你可能不需要用AI写代码但了解这些至少不会被人割韭菜。一切的核心大模型大模型Large Language Model简称LLM是所有AI应用的基础。怎么理解它大模型就是一个超级接话茬机器。你给它一句话它根据它学过的海量数据推测出最合理的下一句话是什么。它不理解你在说什么它只是极其擅长预测在这个上下文里最应该出现的文字是什么。但因为它训练时读过的数据量实在太大了——整个互联网的文本几万亿个字——所以它猜出来的东西看起来就像真的理解了一样。大模型有几个关键参数你需要知道参数量。这是大模型大的体现。几十亿到几千亿的参数相当于模型里几万亿个微小的旋钮。训练的时候这些旋钮被反复拧到最合适的位置让模型的预测越来越准。参数量越大模型理论上越聪明但也意味着更贵、更难部署。上下文长度。大模型能记住的对话历史长度。早期的GPT-4只有8K约6000个汉字现在最新的模型已经支持128K甚至1M。上下文越长你就能一次性塞进去更多的背景信息。训练 vs 推理。训练Training给模型喂海量数据让它学会预测。这个过程非常昂贵OpenAI训练GPT-4据说花了上亿美元。推理Inference模型训练好了之后你用它回答问题。每次对话都是一次推理。推理的成本比训练低得多但也是按量收费的。多模态。早期的大模型只能处理文字。现在的模型可以同时处理文字、图片、音频、视频。你给它一张图它能说出图里是什么——这就是多模态能力。但有一点我必须强调——大模型有一个非常致命的问题幻觉。幻觉Hallucination就是大模型会编造事实。它说得头头是道但内容可能是假的。不是它想骗你是它的工作机制决定的——它本质上是预测下一句话不是从数据库里查事实。对它来说编造一个合理的回答和说出事实没有本质区别。所有大模型都有幻觉只是程度不同。越强的模型幻觉越少但不可能完全消除。所以你在用AI处理重要信息法律条款、医疗建议、财务数据时一定要人工核实。减轻幻觉的常见方法RAG后面会讲让AI先查资料再回答更好的Prompt要求AI引用来源不确定就说不知道选更可靠的模型付费闭源模型比免费开源模型幻觉少这是使用AI最重要的一条认知——你可以把TA当助手但别当真理机器。好大模型是整个AI世界的地基。那它怎么收费大模型的计价单位TokenToken令牌是大模型世界里最基础的计价单位。怎么理解你把一句话发给大模型它不是按字算的是按词块算的。比如我今天很开心会被拆成我、“今天”、“很”、开心这样的Token。英文里一个Token大概对应0.75个单词中文里大概1-2个字一个Token。你的每一次提问输入和模型的每一次回答输出都要消耗Token。比如你用ChatGPT问了一个问题你的问题可能消耗了100个TokenChatGPT返回的回答消耗了500个Token总共600个Token。不同模型的价格天差地别。国内模型DeepSeek的API价格极低百万Token可能只要几块钱日常使用几乎感觉不到成本。国外顶级模型Claude或GPT-4百万Token可能要几十到上百块钱。所以为啥我给学生推荐DeepSeek当主力因为做课程作业一个月可能都花不到10块钱。**省Token的核心技巧把你想要什么说清楚。**模糊的需求导致多轮反复对话每一轮都在消耗Token。一次把背景、目标、约束、示例都说清楚反而最省钱。好大模型有了Token知道了。那我怎么用上大模型呢调用的通道APIAPIApplication Programming Interface应用程序接口是让你能用上大模型的通道。大模型本身是一串代码和数据它自己生活在你碰不到的服务器里。你没有办法直接访问它。但大模型公司会开一个门给你——这就是API。具体来说你去大模型公司比如DeepSeek、OpenAI注册一个账号拿到一个API Key相当于你的身份验证钥匙你的程序通过API Key向API地址发送请求API把请求转给大模型大模型处理完API再返回结果给你所以每次你使用Claude Code、Cursor这些工具本质上都是工具 → API → 大模型 → API → 工具API Key还有一个好处同一个模型可以创建多个Key。你可以一个给自己用一个给同事用一个给测试环境用账单分开算方便管理。所以API是通道Token是过路费。明白了吧那过了这个通道你发给大模型的消息叫什么指挥大模型的语言PromptPrompt提示词就是你发给大模型的指令。你可以跟它聊天也可以让它帮你写代码、写文章、分析数据。你给它的所有内容——问题、背景信息、格式要求——统称为Prompt。很多人以为写Prompt很玄学其实核心就4个要点说清背景。你是谁你在什么场景下比如我是一个大二学生在做人工智能课程作业——让大模型知道你是什么水平、什么需求。说清目标。你要什么结果“帮我实现一个简单的知识图谱构建脚本”——越具体越好。说清约束。有什么限制“用Python不要用第三方库要有中文注释”——没有约束大模型可能用你不想要的方式实现。给示例。最好给一个输入和输出的例子。大模型是模式匹配大师给一个例子比说一百句描述更有效。以前Prompt技巧很重要因为早期的大模型比较笨你得小心翼翼地引导它才能答好。但现在的大模型越来越聪明表达能力越来越强对Prompt的要求反而降低了。你自然地说出需求就行不需要学什么Prompt工程。还有一个实用参数你可能会经常遇到——温度。温度Temperature控制大模型的创造性。取值从0到2数值越大回答越随机越有创意数值越小越保守越准确。低温度0.1-0.3适合写代码、数学计算、事实问答。它胆最小只敢说最有把握的答案。高温度0.8-1.5适合写文案、头脑风暴、创意写作。它放飞自我敢说点不一样的。日常使用0.5-0.8平衡模式大多数场景够用。所以如果你发现AI写的文案太套路可以试试把温度调高一点。如果你发现它写Python代码经常编些不存在的函数把温度调低一点。那问题来了如果大模型只能说不能做怎么办能动手的AIAgent这是很多人最混淆的概念——大模型和Agent到底什么区别大模型脑子。它只能思考不能行动。你跟大模型说帮我把这个文件夹里的全部文件整理一下它可能会给你一个Python脚本让你自己跑。因为它没有手它只负责想。Agent 脑子身体。Agent是在大模型的基础上给它装上了工具调用能力——读文件、写文件、执行命令、搜索网络、操作数据库。它不再只是说而是真的做。Agent背后的核心技术叫Function Calling函数调用/工具调用。大模型判断需要做什么事输出一个结构化的指令比如调用read_file函数参数是./data.txt系统收到这个指令后执行对应操作把结果返回给大模型大模型再整合成回答呈现给你。整个过程对用户来说是一句话的事后台其实是大模型Function Calling工具链在协作。现在流行的AI编程工具全是AgentClaude Code。综合能力最强、生态最好的代码Agent。装在你的终端里你说帮我重构这个项目它就真的开始读代码、写代码、跑命令。我日常重度使用。CodexOpenAI出的。写代码能力很强跟Claude Code类似也是终端里的Agent。Cursor。比较早期的AI编程IDE。坦白说现在有点落伍了不如Claude Code和Codex。这三个都是Agent。它们的共同点是“你说需求AI直接动手。”这其实是非常大的一个跨越。以前你用AI只能问现在你可以让AI干。那这些工具的技能拓展又是什么拓展AI的能力SkillSkill技能包可以理解为AI的插件或扩展包。大模型本身是个通才——它什么都知道一点但什么都不精。你可以通过安装Skill让它在特定领域表现更好。比如装一个「文档处理」SkillAI就更擅长处理PDF、Word文档。装一个「文章配图」SkillAI就懂得怎么给你的公众号文章配图。最简单的理解Skill 分类存储的高级提示词。它告诉AI“当你在做这件事的时候参考这套规则和方法论而不是泛泛地回答。”用过iPhone的人可以把Skill理解成App Store——你需要什么功能就下载对应的应用。有经验的人可以自己写Skill把团队的最佳实践固化进去。没经验的人就先用别人写好的。这就是经验的差别——Skill本质上是经验的数字化。你有经验就能让AI按你的方式来。没经验也能用但容易走弯路。好那如果通用大模型不够用想让它在特定领域更专业怎么办定制化训练微调微调Fine-tuning就是用你自己的数据对已经训练好的大模型做二次训练。听起来高大上其实本质就是大模型预训练的时候学的是通用知识。微调就是给它补充专业知识。比如一个医疗大模型基座是GPT-4然后用100万份病历数据做微调它看病的能力就比通用大模型强得多。但微调有几个硬伤贵。需要显卡至少A100级别需要训练数据需要工程师调参。对企业来说少则几万多则上百万。慢。一次微调可能跑几天甚至几周。维护成本高。模型更新了你得重新微调。所以对我来说我一直给个人用户和小团队的建议是现阶段不需要做微调。对99%的个人用户来说直接用好大模型的通用能力写清楚Prompt就已经够用了。微调是企业的活不是你的。那如果不微调又想让它更理解你的业务怎么办RAG微调的平替RAGRetrieval Augmented Generation检索增强生成是这两年最火的技术方案之一。原理很简单不改变大模型本身而是让它在回答问题的时候先去你的知识库里查资料。RAG背后依赖的技术叫Embedding向量化——就是把文字变成一串数学向量一串数字。意思相近的文字它们的向量距离更近。比如怎么退款和退货流程介绍词完全不同但语义相近Embedding能识别出它们是一类问题。RAG的工作流程先把你的知识库文档全部做Embedding存到向量数据库收到一个问题也做Embedding去向量数据库里找长得最像的文档片段把找到的片段你的问题一起喂给大模型大模型基于这些资料回答问题想象一下你问AI我们的退款政策是什么不搞RAGAI根据自己的训练数据回答可能会编一个不存在的政策。搞了RAGAI先去你的公司文档库里搜索退款政策找到相关条目再基于这些真实信息回答。RAG的好处是很明显的1. 不需要训练。只要把文档放进去就行。2. 随时更新。更新文档回答立即生效。3. 可控。AI的每个回答都有依据来源不是拍脑袋编的。所以对于做AI课程作业的学生来说如果项目是RAG方向的这其实是一个非常实用且有市场需求的技术——很多企业都在做RAG因为它成本低、效果好。这么多模型到底选哪个最后说说模型选型。现在市面上的大模型多到让人眼花缭乱。我的建议很简单分场景选。日常学习/写作业首选DeepSeek。性价比之王国内编程模型里数一数二API价格极低。学生做课程作业一个月花不到10块钱。我推荐用V10 Pro版本性能和价格的平衡点非常好。预算充足想包月可以考虑MiniMax。29-50元/月适合用量大的场景。一个月超过50-100元的用量时切换过来更划算。追求高质量输出智谱GLM-5.144元/月需要抢名额。国内质量最好的模型之一。Kimi 2.6也不错长文本能力突出适合读论文。商业变现场景才需要考虑GPT-4或Claude。按Token计费实际使用下来月花费可能上万。个人用户和学生完全不用考虑。还有一个选择维度开源 vs 闭源。开源模型DeepSeek、Llama、Qwen免费、可以下载到自己的服务器跑、数据不出门。对注重隐私的企业来说很有价值。对普通用户来说最直接的好处是便宜甚至免费。闭源模型GPT-4、Claude付费使用只能通过API调用。通常能力更强、服务更稳定但不方便做深度定制。对个人用户来说不需要纠结这个。好用的闭源模型直接用DeepSeek这样的开源模型也非常好。选能力够用的就行。一个实用的原则模型也在快速迭代不用追求最新最强。选一个能力够用、价格合适的用熟它比频繁换模型效果好得多。一张图总结如果要把所有概念串起来关系大概是这样1. 大模型LLM是地基——一个经过海量数据训练的文字预测引擎2. Token是它的燃料——每次使用都在消耗按量付费3. API是通道——程序通过它调用大模型4. Prompt是你对大模型说的话——背景、目标、约束、示例5. 温度是创造力的旋钮——调高更有创意调低更准确6. 幻觉是它的天生缺陷——它可能编造事实记得核实7. Agent是装了身体的大模型——能思考也能动手操作8. Function Calling是Agent的手——告诉系统去调用什么工具9. Skill是它的技能包——按需加载的专业能力10. Embedding是把文字变向量的技术——让机器懂语义11. 微调是深度定制——花大钱让模型更懂你12. RAG是轻量定制——不给模型动手术只给它装个知识库这些都是相互配合的不是一个取代另一个的关系。比如我现在写这篇文章用Claude CodeAgent通过API调用DeepSeek大模型消耗Token写好Prompt配合专门的写作Skill最后成文。你没发现吗上面这句话囊括了这篇文章的核心概念。再加上温度、幻觉、Embedding、Function Calling——整张概念地图就完整了。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

查看全文

http://www.gsyq.cn/news/1362159.html