当前位置: 首页 > news >正文

云耀计算AI-Claura,在树莓派运行的AI

模型下载地址:https://gitee.com/jiasiqi2025/Open-Claura

官方网站:https://bksy.top

正文

Claura这个项目有意思的地方在于,它把一个能对话的AI塞进了400MB,跑在树莓派和15年前的老爷电脑上。不是靠魔法,是靠几项扎实的压缩技术。

核心指标:2亿参数(0.2B),FP16半精度量化,模型文件约400MB,纯CPU推理(无需GPU、无需NPU、无需任何加速卡),基于T5架构重构。


模型蒸馏

Claura不是从零训练的,而是从一个更大的模型那里"学"来的。蒸馏的核心逻辑是:大模型(教师)在大量数据上做推理,生成软标签(概率分布),小模型(学生)直接拟合这些软标签,而不是拟合原始数据。

这样做的好处是,软标签包含了教师对类间相似性的理解,信息密度比硬标签高得多。学生不用从头摸索,直接继承教师的判断边界。参数从几百亿压到2亿,智能水平掉得不算太狠,靠的就是这手。

架构砍层

T5原生结构对树莓派来说太重了。Claura做了几件事:削减Transformer层的数量,缩小隐藏层维度,精简注意力头的个数。本质上是在模型深度和宽度上同时动刀。

但也不是瞎砍。层数少了,模型的表达能力下降,但推理速度线性提升;头数少了,注意力矩阵的计算量呈平方级下降。这个权衡的结果就是,模型能跑,但复杂任务明显吃力——写诗只能憋出一句,就是因为深层语义关联能力被削了。

FP16量化

Claura用的是FP16,不是INT8。FP16把每个参数从32位浮点压缩到16位,体积直接减半。2亿参数 × 2字节 = 400MB,刚好对上。

为什么选FP16而不是INT8?INT8体积更小(2亿参数 × 1字节 = 200MB),但精度损失大,推理时输出质量明显下滑。FP16在体积和性能之间取了个折中,精度损失控制在可接受范围内,推理时也不需要额外的反量化步骤,CPU跑起来更省事。

CPU推理

Claura最反潮流的地方是:它完全放弃GPU加速。在模型设计阶段就把"纯CPU运行"当成硬约束,所有算子都避开CUDA依赖,只调用CPU原生的数学运算库。

这就意味着推理速度慢——树莓派上每秒也就几个token。但也意味着兼容性拉满:不需要显卡驱动,不挑CUDA版本,ARM架构的树莓派能跑,x86的15年老电脑也能跑,甚至某些嵌入式Linux设备也能跑。在这个靠显卡吃饭的AI时代,Claura反手一套纯CPU方案,等于告诉所有人:我不跟你们卷算力,我卷的是"有CPU就能跑"。

屏蔽脏话

这不是模型的一部分,是外面套的一层过滤网。实现方式很简单:一个敏感词表 + 正则匹配。输入和输出都会过一遍,命中就替换或拒绝。和模型本身无关,纯工程手段,但实用。Claura不走流式输出,而是提前生成一个候选回复池,再从中选一条最合适的整句输出。这样做的好处是,在树莓派的弱CPU上,逐字流式输出反而容易卡顿,预生成+整句输出让体验更连贯。坏处是响应延迟固定,不管问题难易都得等那么久。

我正在研究如何让ai模型在不损失智商或轻微轻损失智商的情况下运行在弱性能设备上,如果你感兴趣那么请联系我2134286739@qq.com

http://www.gsyq.cn/news/1581473.html

相关文章:

  • IntelliGit 项目个人工作总结
  • 金融事件序列建模:PRAGMA Transformer模型解析与应用
  • 复杂流体系统实时控制:模型降阶与滚动时域优化实践
  • 当AI Agent开始写AI Agent:自进化系统在企业管理中的伦理与安全红线
  • 广告物料行业实践指南:从制作到落地的全流程解析与未来趋势展望
  • 自适应信息流:让视觉语言模型学会动态聚焦的关键技术
  • 专利代理师:2025年实务真题回忆版
  • Windows Codex + CC Switch+deepseek 完整闭坑配置指南
  • 博弈论与机制设计:构建AI系统评估的20条核心原则与实践指南
  • AestheticNet:融合视觉认知与语义感知的图像美学质量评估新范式
  • Mind‘s Eye视觉认知基准:从抽象推理到动态预测的AI能力评估
  • 云计算虚拟网络:VXLAN覆盖网络与SDN控制器架构
  • 从脆弱数据主体到脆弱化数据实践:AI伦理的工程化视角与加固方法
  • React Fiber 的优先级调度原理
  • FreqFlow:基于频率感知的流匹配模型提升图像生成细节质量
  • Wasserstein几何与随机测地投影:优化神经网络训练的新视角
  • NestPipe框架:优化大规模推荐系统训练效率的创新方案
  • 安全技术Web应用防火墙规则配置与攻击防护的效果验证
  • 大语言模型在POI预测中的上下文学习应用
  • 委托代理关系中的中途支付与终止合同机制:提升项目效率的契约设计
  • Mind‘s Eye基准:评估多模态大模型的视觉认知与空间推理能力
  • Ubuntu 16.04 安装 devtools:旧系统对接 R 最新生态的实战指南
  • 机器学习融合手机信令与收费数据实现交通流精准实时估计
  • 自动驾驶博弈论MPC实时求解:牛顿类方法的工程实践与优化
  • Vue项目集成CSS框架的三大核心问题:加载时机、作用域与覆盖策略
  • Ubuntu 18.04 部署 production-ready code-server 云 IDE 全指南
  • 分布式算法实现O(log n)时间测地凸分解,赋能可编程物质形态控制
  • 基于CGAN与LSTM的加密市场异常检测:合成数据生成实战
  • 面向对象编程中的抽象:接口设计与责任切割实战
  • 阿尔伯塔软件项目管理 VI 笔记(二)