当前位置：首页 > news >正文

新手程序员必备：收藏这份GPT大模型学习指南，从入门到精通！

news 2026/6/24 20:47:13

GPT模型采用单向注意力机制与BERT最大的区别在于其使用因果掩码即每个token只能关注其前面的token无法看到未来的信息。GPT作为生成式预训练模型早于BERT出现采用预训练加微调的方式。GPT-2提出无需微调即可迁移到新任务的理念实现零样本推理。GPT-3进一步扩大模型规模至175B实现少样本学习通过上下文理解任务指令。InstructGPT则着重于模型行为与人类预期之间的对齐通过监督微调和强化学习确保输出内容的安全性、有用性和诚实性。GPT用的是右边decoder这部分decoder和encoder最大的区别是它用了因果掩码它是一个单向注意力每一个TOKEN都只能对它前面的其他TOKEN去做注意力不能看到它后面的TOKEN不能看到它未来的信息。GPT的第一篇文章比Bert还要早一些它是一个生成式的预训练预训练的提出GPT比Bert还要早些在Transformer上采用预训练加微调的方式GPT做的还要更早一些但第一代的GPT没有激起什么浪花是因为GPT作为一个单向注意力它的任务要更难一些。所以同样的参数量同样的数据量它的效果没有Bert做的好GPT比Bert要早一些因为它这个任务太难了参数量完全不足以实现它的野心。 GPT这篇文章它拿出来一个decoder它分为三个部分一个是self attention一个是cross attention还有一个是前馈层。首先它把cross attention删掉了因为它都没有encoder了它跟谁做cross所以它其实做的也是只有一个self attention一个前馈层的一个网络结构跟 Bert是非常相似的不同的就是它这个self attention是一个经过 mask的。它用的也是自监督训练微调的方式。在视觉里面很早就开始预训练在NLP里GPT到Bert才开始真正采用这种大量数据集的预训练因为预训练在NLP里面没有那么多标注好的数据在CV里面比如想标一个图的类别这个图它有很多像素点有很多信息去标注它可能标注10万张图、100万张图就已经很多了但是对一个句子来说它一个句子和一个图的像素数量根本不是一个数量级所以如果想标注同样数量级的一个文本数据集它是非常困难的。所以就提出用自监督的方式去做预训练不需要标注了预训练的时候用自监督就是数据里就有自己想要的答案。Bert的预训练也是一个自监督的。01自监督预训练GPT是怎么做自监督预训练如果Bert是做完型填空那GPT就是一个非常传统的language model它是用预测下一个词的方式比如输入一个句子是我爱网球跟Transformer是一模一样拿到我爱网球之后希望它得到的是爱那么去预测网球的时候就可以通过我和爱这两个词汇去预测下一个单词是网球这个就是这张图论文里的一张图左边这一部分叫预测的一个损失预测损失跟Transformer里是一模一样的对它预测一个单词去做V分类交叉熵损失。第二部分是微调微调部分是右边这一部分的损失叫任务里面的分类损失。微调的时候不要对这个预训练之后的模型进行一个特别大的更改如果增加了很多层把这个架构做了特别多变化前面预训练费了那么大资源练预训练出来的模型就没有太大意义了我们希望预训练之后就不用费特别大的力气只加一点小小的改动就能去用到下游任务上去做微调。对于GPT模型来说它不是对模型架构做太大的改变而是对输入格式去进行一个变化来适应不同的任务。在这里面可以看到它对于不同类型的分类问题也是在后面加了一个extract这么一个特殊标志符这个有点类似于bert里的clas。我们希望这个模型用extract这个TOKEN的输出去学到整个句子的信息Bert里面是把clas放在了第一个TOKEN位置那extract在GPT里面它放到了最后一个TOKEN因为它要想学到全句的信息首先能对全句的所有TOKEN去做注意力如果放在前面只能看到前面的内容只有放在整个句子的最后才能看到往左看才能看到整个句子的内容。所以Bert那种模式把clas这个TOKEN放在哪一个位置都是可以的。但对于GPT来说它一定要把extract放在最后。对于分类问题也就是把extract跟Bert一样extract这个输出去做一个线性层的变换经过一个Softmax去计算它的分类损失。第二个类型是蕴含的问题Entailment问题有一个前提假设比如说第一个句子是小明在上海第二个句子是小明在中国那么就认为这个假设是符合这个前提的它就可以输出一个正确。第一个句子是小明在上海第二个句子是小明爱吃巧克力就认为这个句子是无关的它可能就是第二个类别。第一个句子是小明在上海第二个句子是小明在美国这个明显就是前后矛盾就输出第三个类别所以NLP里面的问题是一个三分类问题还是用extract这个输出去做一个Linear把它变成一个三维的向量经过softmax之后去做分类。Similarity是对比两个句子的相似性相似性是一个对称的a句和b句相似也就代表b句和a句相似。在做下游微调的时候为了防止a b句之间不能理解前后是一个对称问题所以构造了两个句子也就是把a句放在前面和a句放在后面都去经过选好的GPT经过GPT之后把这两个句子extract输出做一个加和共同的去做这个分类进入这个分类线性层。最后是一个多选Multiple Choice的问题给你一个问题context给很多种答案第一答案选项a是什么选项b是什么给n个答案对于每一个回答都把它和问题拼在一起进入训练好GPT之后输出一个标量对于每一个句子它都输出一个标量最后对这些所有标量进行一个Softmax做一个分类就ok。这个start它标志它的开始extract标志它提取整个句子信息中间delim是标志像刚那个separate一样标志它是一个分隔符左右两边属于不同的句子所有这些特殊的标记都是在微调的时候学习到的也就是词嵌入层里面的某一些词它是一些特殊的标记这些特殊标记到底表示什么样的向量其实也是在词嵌入层里面学到的。初始的词向量长啥样在Transformer输入里面有一个嵌入层假设这是那个嵌入矩阵可以把它看成一个词典那么初始词向量的输入就是从这里面取出一行一行的词向量把这个取出来的词向量放入encoder里面之前这个词向量是通过word2vec或者glove之类的词嵌入方式去直接把一个词变成一个词向量。在Transformer里面整个嵌入矩阵词向量它是模型里可学习的参数。也就说这个嵌入矩阵在模型训练的过程中它也会进行改变在整个模型训练的过程中也会不断的在变好。02GPT-2GPT出来之后虽然提出了几点非常有开创向意义的点但因为Bert的出现GPT被碾压了那么GPT继续去做的时候就提出了一个新的方向如果效果不如Bert提出一个叫Multitask learners刚是预训练微调的方式现在希望能够不微调因为在发展的过程中模型一定是越做越大。微调的时候预训练这个模型的参数比如说是110M那么微调这 110M的参数要一起做梯度下降要回传整个110M所有参数的梯度都需要去计算并且去做梯度下降那NLP里面的任务种类又非常多在每一个任务上都要对越来越大的模型去做这种全量微调代价是很大的GPT2就提出了一点希望经过预训练之后的模型有很强的能力能够不对它做微调能够很低的成本就把它迁移到一个新的任务上。所以提出Zero shot零样本推理。好处首先是不用微调了减轻去迁移训练的成本第二点也不需要在微调的时候去做标注Bert和GPT1在预训练的时候用的都是自监督训练意思就是他用的都是没有标注的文本文本质量还可以不需要人工去对它进行标注当迁移到下游任务如果去做微调每一个任务都得有它一个正确的分类标签这个正确的标签都是要人去标的这个标注它限制了数据量而且增加了非常多的人力成本。随着模型越来越大能够去做零样本推理既不对下游任务做标注也不需要对它做微调就能够获得还可以的效果。比如Transformer做机器翻译的问题GPT2不需要专门对翻译问题做一些微调而是经过预训练的模型拿过来之后直接输入这么一个句子你给我翻译成法语英文的原文法文的原文如果我希望你去做问答操作回答这个问题给你这个问题做一些参考paragraph再给你问题给输出answer在GPT2把这些称为prompt。通过prompt 告诉你现在要做什么任务而不是真的去修改参数去做梯度下降那样去做优化修改参数。直接通过prompt告诉你现在应该做什么任务这个就是他用了一个直观的方法去理解为什么可以这样做它提出了两点一个是当模型够大的时候认为它是有很强的能力可能理解 prompt指令。语料够多没有任何微调的情况下还能对一些多任务进行一些泛化能力因为预训练的时候可能见过某一个文章见过它翻译成法语某一个英文句子翻译成法语或者某一个文章里回答过这个问题这个问题是什么它的答案是什么它见过类似的语料所以拥有了这种能力。上图是GPT2里给出的一些结论首先设计四个大小的模型第一个跟GPT第一代是一样的大小同时也是跟Bertbase差不多的量级第二个就是跟Bert large差不多量级GPT2这个工作是出现在Bert之后所以他把模型进一步增大了他做这两个小模型就是为了做一些对比能够跟前面的工作做一些对比展现它的优势。为了能体现它的效果进一步把模型做大并且在这四个不同任务上去看了一下他大概的效果。在理解或翻译问题上它的效果还是可以的。跟人类做对比以及一些经过监督微调的其他模型做对比它的效果还是可以的。但在做摘要问题它基本上跟其他模型相比就是差了一截了。在做QA回答问题它跟专业做QA的这种系统相比差的非常远。这四个模型里面每一个点都代表上面四个模型的参数无论在任何问题上随着参数量的增加它的性能都会有提升。虽然这一代只做到1542M这么大的一个参数量但是如果未来能有更多的数据能有更大的一个模型可以把这个性能进一步的提高他认为他未来的趋势还是这样继续增长的。03GPT3接下来是GPT3这是一个非常巨大的模型它论文的题目如上它提到一个few shot的概念。GPT2提到的是Zero shot不做任何的微调直接在prompt里做翻译回答问题经过预训练的GPT能够完成新的任务。在GPT3里面它完全不给你任何的参考可以给少量参考few shot叫少样本学习也就说Zero shot和few shot在视觉里面都有用到它的概念是当迁移到一个新的任务上的时候不给任何参考就是零样本的比如现在教给你什么是猫什么是狗想让你给我判断什么是兔子那么给一张兔子的照片这个就是单样本one shot。那我给你的这个兔子或者我再给你几张兔子照片但是兔子照片一定是很少的对于真的想要学会什么是一个兔子需要的量级来说它还是很少这种情况叫做few shot可能给你十几张照片但这个量级对于想要学会一种图像分类问题来说它还是很少。GPT用到NLP的问题来说few shot有一个特别的点即使是few shot它也要标注一点是它的few shot是不经过微调训练的所以也把它称为in context learning上下文学习通过上下文去学习它主要的一点就是只要在输入的prompt里面给了任务那么整个预训练之后的模型参数是完全不动的希望它在输出里面能完成你给出的任务。它的思路跟GPT 2说的是一样的GPT3这时候已经把模型变到了175B已经是千亿级的模型它把这个模型做的非常大在预训练时候见过的数据量特别多它认为在里面已经拥有了很强的多任务的能力以及模式识别的能力它能知道你现在想让我做的是哪一个任务并且这些任务在它前面预训练的时候它都已经见过了。比如在预训练语料里已经见过很多加法问题、见过很多改错别字的问题、见过很多翻译问题在最后的时候可能不需要再去针对某一个特定的任务专门去做微调只要能在上下文中理解你想让做的是什么任务就可以去调用这些能力。原论文里给出的一个翻译问题英文翻译成法语的例子之前微调学习采用的方法是给一个英文法语句子对让它去做梯度下降参数更新真正去做训练的时候不是一个句子而是一个batch句子对假设一个batch只有一个只做一次更新一直更新微调到它具有翻译能力了而GPT3希望的是我不去做参数更新。如果是Zero shot直接给他一个任务描述一下这个任务你给我做一个翻译任务然后给你一个英文你在后面补全它对应的法语。那么one shot就是我给你一个任务并且我给你一个例子假设前面是一个英文我后面希望你输出这个法语让它更好的认识到它到底是要做一个什么任务后面再让它输出。few shot就是我多给你几个例子在GPT3里面few shot的数量应该是10~100给它一些例子让它能够在不经过更新的情况下去泛化到不同的任务上。就是这同一套参数同一个模型可以做翻译那么之后这个few shot也可以去做问答做任何的任务都是不改变都用完全同样的一个模型去做。上图给出了一些实验数据。首先它做了非常多不同大小的模型其中最大的模型是175B对于同一个模型同一个大小量级的模型来说在最左边这个是不给他任何样本的和给他一个样本以及给他一些样本。随着给他样本越来越多他的性能会呈一个上升趋势不管是对多么大、多么小的模型都是这样子。可以看到对大模型它这个上升的趋势是更明显的但是few shot 给的10~100个样本有个问题是能否继续往后给对于一个Transformer模型来说它的输入有一个最大长度序列的限制所以我们给的样本希望的是提升模型的能力而不是说一味的去给它更多的样本。因为喂太多样本有可能光这个样本就已经把TOKEN给撑爆了可能根本没有办法去做一个好的回答接下来他又对比了一下对于同一个few shot对于只有one shot对于Zero shot同一个情况下不断的去增加模型的参数它也是一个上升趋势也就说随着样本数的上升这种子任务样本数示例的上升和参数量的上升性能都会增加。04InstructGPT之前GPT 3问题的任务里面他已经做到175 B这么大的一个模型他里面给出来的一些结果都是非常好的。写一个新闻稿、文章都可以做到以假乱真写出来的非常连贯自然。但是会有胡编乱造的情况还有可能输出一个有偏见的输出。还有一种情况是在整个gpt1~3因为逐渐取消了微调的过程在整个预训练的过程中它只有一个目标是预测下一个词是什么只需要猜下一个词是什么它并不会管你人类到底想要一个什么东西所以它就可能会出现一些有害的或者没有帮助的一些回答可能自圆其说或者胡编乱造出来的因为这些可能都是符合一个正常语文的一个句子构造但是它并不符合人类对于一个大语言模型的预期所以这时候就提到一个对齐的问题也就是说模型的行为和我们人类期望之间做一个对齐模型的行为只是说它要编一个能自圆其说的句子我们期望首先是诚实的不要胡编乱造一些内容不知道就可以说不知道。第二它是有帮助的它的回答得是对这个跟我给的任务相关的能解决我给你的问题。第三就是无害的假设他说如果你给我一些你的哲学观点他说AI 就应该奴役人类。这就是instructgpt去做的事情它希望能够通过这种对齐通过这个步骤去对GPT这种大语言模型进行一个对齐工作。整个对齐的工作流程是首先拿到一个已经经过大量预训练的GPT第一步还是要去做一个监督微调虽然提出了Zero shot又走到了 few shot如果希望他的输出能符合预期还是要做一些微调。这个微调首先选出一些问题来找一些人来写回答这个回答是希望模型能写出来比较阳光、正面有用的回答。然后对它做一个监督的微调跟之前transformer正常的一个decoder训练是一样的第一步称之为监督微调缩写为SFT。第二步是希望用一个强化学习的方式RLHF基于人类反馈的强化学习它分为两个步骤首先它是希望训练一个奖励模型也就是对于一个问题来说让GPT 给生成很多种回答找一个人类对它的回答来排序比如说d回答是大于c回答大于a回答a和b都差不多让人来做一个排序根据这个排序去训练一个奖励模型这个奖励模型就能够对一个回答进行打分对一个问题和回答进行打分这个奖励模型是为了下一步进行强化学习。这个强化学习在instruct GPT里面用的是PPO的方法后来有一些别的强化学习的方法引入到大语言模型的训练有一些就可以省略掉这一步不需要训练一个奖励模型了。现在GPT以及其他大语言模型现在一个训练的范式就是先经过一个预训练让它学到什么是语言先理解这门语言经过SFT监督微调去做一个对齐最后再经过一个强化学习进一步强化它对指令的理解保证它的安全性做到一个无害的回答。GPT一系列发展到Chatgpt就真正横空出世以上是chatgpt的一个发展历程。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

查看全文

http://www.gsyq.cn/news/1346070.html