from lmdeploy import pipeline
pipe = pipeline('/root/autodl-tmp/models/Qwen/Qwen1.5-0.5B')
response = pipe(['Hi, pls intro yourself', 'Shanghai is','中国自古以来'])
print(response)

3.3 在线推理

启动服务
lmdeploy serve api_server /root/autodl-tmp/models/Qwen/Qwen1.5-0.5B --server-port 23333
openai api测试

- from openai import OpenAI
client = OpenAI(
api_key='YOUR_API_KEY',
base_url="http://0.0.0.0:23333/v1"
)
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name,
messages=[
{
"role": "system", "content": "You are a helpful assistant."
},
{
"role": "user", "content": "如何学好大模型"
},
],
temperature=0.8,
top_p=0.8
)
print(response)

在这里插入图片描述

3.4 直接问答

lmdeploy chat  /root/autodl-tmp/models/Qwen/Qwen1.5-0.5B

在这里插入图片描述
很明显，句子结束有问题.

4. 量化

4.1 kv cache介绍

下文介绍摘自官网：
自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 的非对称量化。原来的 kv 离线量化方式移除。

从直观上看，量化 kv 有利于增加 kv block 的数量。与 fp16 相比，int4/int8 kv 的 kv block 分别可以增加到 4 倍和 2 倍。这意味着，在相同的内存条件下，kv 量化后，系统能支撑的并发数可以大幅提升，从而最终提高吞吐量。

但是，通常，量化会伴随一定的模型精度损失。我们使用了 opencompass 评测了若干个模型在应用了 int4/int8 量化后的精度，int8 kv 精度几乎无损，int4 kv 略有损失。详细结果放在了精度评测章节中。大家可以参考，根据实际需求酌情选择。
kvc
ache int8基本无损，并且lmdeploy性能比vllm好1.8倍。

4.2 kv cache量化优势

量化不需要校准数据集
支持 volta 架构（sm70）及以上的所有显卡型号
kv int8 量化精度几乎无损，kv int4 量化精度在可接受范围之内
推理高效，在 llama2-7b 上加入 int8/int4 kv 量化，RPS 相较于 fp16 分别提升近 30% 和 40%

量化前后，推理效率性能对比：
下图摘自官网：https://lmdeploy.readthedocs.io/zh-cn/latest/quantization/kv_quant.html
在这里插入图片描述

4.3 量化应用

检查qwen模型的位数，确认是16位
量化参数设置
通过 LMDeploy 应用 kv 量化非常简单，只需要设定 quant_policy 参数。

LMDeploy 规定 qant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。

lmdeploy serve api_server  /root/autodl-tmp/models/Qwen/Qwen1.5-0.5B  --quant-policy 8

查看全文

http://www.gsyq.cn/news/10207.html

使用Cyclops.PdfKit根据pdf模板生成pdf文件

一款文本编辑器的介绍

面试讲解

如何使用C语言实现Vigenre密码加解密

基于解析法的四轴SCARA机器人正逆运动学代码

redis-list类型基本命令

程序员的未来：从技术岗位到全栈思维的进化之路 - 实践

国产化Excel处理组件Spire.XLS教程：Java在 Excel 表格中轻松添加下标

tips图解复杂数组、指针声明

通过perl或awk实现剪切功能

详细介绍：麒麟v10服务器安装libvirt

9.23 资料分析 7/10

VMware ESXi 磁盘置备类型详解

HWiNFO 硬件信息检测工具下载与安装教程

打破数据壁垒，DMS Data Agent 开启智能分析之旅

光隔离探头技术解析：高电压测量的安全革命

从缺陷管理到质量协作：现代Bug工具的范式升级

螺旋矩阵-leetcode

完整教程：2020年_408统考_数据结构41题

Gitee本土化创新实践：中国企业研发效能提升的新引擎

详细介绍：nvm使用和node使用

Markdown的基本语法

【GPT入门】第58课 感性认识Imdeploy介绍与实践

1. lmdeploy介绍

2. 安装

3. 部署模型

3.1 下载模型

3.2 离线推理

3.3 在线推理

3.4 直接问答

4. 量化

4.1 kv cache介绍

4.2 kv cache量化优势

4.3 量化应用

相关文章：

【GPT入门】第58课感性认识Imdeploy介绍与实践