当前位置：首页 > news >正文

用 MiniMind 打造你的专属小模型：几块钱，几个小时，从0开始训练 | CSDN收藏必备

news 2026/6/10 17:04:56

本文介绍了如何利用 MiniMind 项目通过简单的流程和少量资金在几小时内从零开始训练一个几十MB的小模型。作者分享了使用 MiniMind-3 作为基础模型结合个人文章数据进行 LoRA微调训练出具有个人写作风格的专属小模型的经验。文章详细描述了数据准备、训练过程和结果应用强调了小模型在特定任务场景中的价值为普通创作者提供了一种与AI对话的新方式。我最近当 AI 班狗刷抖音一周里被同一个项目推流了三次。项目叫 MiniMind。打开 GitHub50.4K stars持续上涨种。这个项目大致就是几块钱几个小时从 0 开始训练一个几十 MB 的小模型。这就有点牛逼了。过去一提训练模型大家默认弹出来的画面是一堆工程师敲代码普通创作者看到这儿基本就准备关页面了。我去调查了下这个项目发现 MiniMind 已经把主要流程准备好了。数据清洗、预训练、SFT、LoRA、推理测试全都在项目里。整个项目的架构大致如下整个流程异常简单分享给大家。全程无光放心观看我把自己过去写过的文章整理成数据集训练了一个很小的「杉森楠专属小模型」。目标也很简单。我之前做过一个本地 AI 语音输入法底层用 Whisper 做转录。它能把我说的话变成文字但转出来的内容还是口述稿标点乱口癖多语序也比较散。我想加一个本地处理环节让它把口述稿修成更接近我公众号文章的文字。这个小模型最适合的任务就是做这种窄场景的风格修正。我一开始也试过更莽的方式。直接用自己的文章材料从 0 开始用 MiniMind 训练结果很快就翻车了。原因也简单模型连稳定的中文表达都没有学好根本没办法学习风格。输出大概是下面这样完全驴唇不对马嘴所以后面我换了方案。先用MiniMind-3 这个已经发布出来的小模型作为基础模型它只有 64 MB 左右至少已经具备基本中文能力。然后在这个基础上再用我的文章材料做 LoRA 微调。这一步很有必要。个人文章数据只有 1 万多条数量不大。如果拿它从 0 教模型学中文材料远远不够。用基础模型保留语言能力再让 LoRA 学我的写法成功率会高很多。首先我把历史 Markdown 文章转成了 MiniMind 能读取的两类 JSONL 文件。一类用于继续训练基础文本能力一类用于 SFT让模型学习「给一段口述稿改成公众号文字」这件事。预训练数据长这样。JSONL 可以理解成一行一条样本。它适合训练场景因为程序可以一行一行读不需要一次性把整个文件读进内存。原始 Markdown 不能直接拿来用。文章里的图片链接、HTML 注释、标题符号、无关空行都会干扰训练。我的处理方式是先让 Codex 扫描文章文件夹把正文抽出来再分成适合训练的小段。预训练数据不需要太复杂核心是让模型继续熟悉我的语言材料。SFT 数据就要更接近真实任务。比如我希望它处理语音输入法里的口述稿样本就应该长成「输入一段口述内容输出一段改好的文字」。大概是这样到这里训练路线就基本定下来了。MiniMind-3 负责原本的中文能力我的文章数据负责风格修正。训练方式可以选 Full SFT也可以选 LoRA。我最后选了 LoRA。原因很现实文件小训练快对本地设备友好也更适合这类个人风格任务。为了让过程更适合录屏我还做了一个简单的网页记录器。Codex 在终端里执行的命令、日志、loss 数字都会同步到网页上正式训练之前我先做了一次小样本验证。我只取前 80 条 SFT 样本训练 1 个 epoch。这一步只确认几件事。数据能不能正常读取训练能不能开始LoRA 参数有没有被更新模型生成的中文有没有完全崩掉。小模型训练最怕一上来就把全部数据放进去半小时后才发现格式错了。先用 80 条样本试一下能省很多时间。这次验证过了。接下来我冻结 MiniMind-3 原来的参数只训练 LoRA。这样做的好处是基础模型原有的中文能力还在我的文章材料只负责改它的表达习惯。80 条样本训练完之后它已经能生成比较连贯的中文。味道当然还不够因为样本太少模型只能知道「任务大概是什么」学不到我的文章节奏。后面我换成上万条融合 SFT 数据才算进入正式训练。网页上会持续显示 loss、epoch、学习率这些信息。第 1 个 epoch 开始后日志里很快出现了第一组数字。200/10250loss 4.296预计当前 epoch 大概 16 分钟。这时候我最关心的是训练有没有稳定继续数字好不好看先放一边。只要样本在被读取loss 在变化显存和内存没有异常就说明这条路能继续。训练到后面loss 从 4.296 降到了 2.949。这里可以简单理解一下 loss。它衡量的是模型预测下一个 token 时错得有多厉害。数字降低说明模型更能猜到训练数据里的下一段表达。当然loss 不会一直平滑下降。我的数据里有短续写也有长文切片有些段落语气强有些段落偏说明难度不一样。到 1800 step 左右loss 在 2.5 到 4.1 之间波动我反而觉得正常。如果它一路低得离谱我会更担心数据是否太重复模型只是把样本背下来了。到 7600 step 左右学习率已经降得很低。学习率可以理解成模型每次改参数的幅度。前期幅度大是为了更快靠近训练数据。后期幅度变小是为了减少乱改。最后我看到学习率到了 1.36E-5也就是 0.00001 左右基本就是收尾阶段了。整个训练大概一个小时。说实话这个时间比我预期短。最后产出的一个是 MiniMind-3 的基础模型文件一个是我训练出来的 LoRA 文件。前者提供中文能力后者提供我的文章习惯。两个文件合在一起就能在本地启动一个很小的个人写作模型。训练完之后问题才真正开始。64 MB 左右的小模型能力一定有限。它做不了复杂推理也不适合回答开放知识问题。拿它去当 ChatGPT 用结果大概率会让人血压升高。我给它安排的场景很春枝放在语音输入法里专门处理我的口述稿。我之前做过一个叫 Whisper input 的本地语音输入法。它用本地 Whisper 模型转录语音再把文字发送到光标所在的位置。平时写文章、回消息、记想法都能用还算是比较丝滑。它原来的流程很简单。我按快捷键说话Whisper 在本地转录转录结果直接进入当前输入框。因为模型在本地响应不太受网络影响也不用把每一句话都发到云端。这个方案已经比很多在线语音输入顺手。尤其是写中文的时候稳定性比我之前试过的 Typeless、WhisperFlow 更适合我的习惯。这个方案也有个明显问题。Whisper 解决的是「听清楚我说了什么」没有解决「这段话能不能直接放进文章」。口述内容天然会有重复、停顿、废话和半截句。比如我说一段体验嘴上会出现很多「然后」「就」「这个」「大概」转成文字后很难直接用。如果每次都接大模型 API也能改。麻烦在于整个流程类似于一个 Agent各个节点的优化很麻烦。这时候本地文章小模型就有了位置。它只处理一个任务把语音转写稿改成更接近我文章风格的初稿。我给 Demo 做了两个模式。一个是普通对话用来测试模型有没有正常启动。另一个是语音润色把口述稿发进去让它清理口癖、补标点、调整语序。整个组合很小巧灵活。MiniMind-3 基础模型加上我自己的文章 LoRA总体还是 64 MB 左右。这听起来有点像整活。可我越玩越觉得这类小模型的价值来自一个朴素的点。它文件小启动快可以放进个人工具里承担一个非常具体的环节。第一次启动 Demo我先问了一句「你好」。它回复得非常快。快到有点离谱。这当然和模型小有关。64 MB 左右的参数量能力上限低响应速度也会很夸张。你不会看到大模型长时间思考它更像一个本地小插件输入进去很快给你一个结果。我又让它介绍自己的能力。回答确实谈不上惊艳但至少结构正常能把「写作分析」「问题解决」「内容调整」这些方向说出来。到这一步我对它的预期就更稳定了。它能做一些轻量任务不能指望它承担复杂判断。最适合它的还是语音润色。我发了一段很典型的口述稿进去里面有停顿、重复、顺序混乱还有一些临时想到的补充。它会把句子重新分开补上标点删掉一部分口癖。效果没有大模型那么稳定但已经能把一段不能直接用的语音稿改成一段可以继续编辑的文字。对我来说这就够了。再看一个例子。我刚体验完一个新的 AI 产品直接用口述方式说了一段感受。原稿里有很多重复表达前后顺序也有点乱。小模型处理之后会主动把句子切开把几个判断放到更顺的位置。它也会保留一点我的语气不会把所有句子改成客服文案当然边界也很明显。这个模型太小了数据也少。1 万多条样本放在个人项目里已经不少放在模型训练里只能算很小的材料量。它能学到一点文章习惯能处理固定任务但不能保证每次都稳定。而且这些训练数据不能只包含你的「私人训练样本」还要有基础的通用数据集。所以我不会把它包装成什么个人大脑也不会说它已经替代大模型。它现在更像一个本地写作小组件放在语音输入法后面帮我把第一版口述稿修得顺一点。但这件事确实让我很兴奋。过去训练模型对普通创作者来说太远了大家基本上只能跟实际的 AI 产品「交流」很少能亲手看到自己的材料怎样变成数据集怎样参加训练怎样生成一个可以在本地启动的模型文件。这可能是我这次最大的收获。以后每个人都未必需要一个通用的大模型但很多人会需要几个很小的个人模型。它们的任务会更具体专门处理你每天反复遇到的小问题。那些回答全世界的问题仍然交给大模型。比如把一段乱七八糟的语音稿改成你愿意继续写下去的文字。对我这种每天都在跟文字互殴的人来说这已经很香了如果你手里也有非常多的私人数据想与他们来一场「AI 对话」想了解下整个训练模型流程是怎样的挺推荐你去试一次的。看到这里辛苦啦。最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.gsyq.cn/news/1394928.html