当前位置: 首页 > news >正文

rk3588/rk3576使用rkllm推理大模型,提供OpenAI服务

infer-rkllm-openaigitee开源地址https://gitee.com/Vanishi/infer-rkllm-openaigithub开源地址https://github.com/beixiaocai/infer-rkllm-openai基于 Rockchip RKLLM 的视觉语言模型推理服务提供完全兼容 OpenAI API 格式的 HTTP 接口。提示: Intel CPU/GPU 用户请查看 https://gitee.com/Vanishi/infer-openvino-openai作者已准备的模型下载地址https://pan.quark.cn/s/d2b152fbea26硬件要求开发板: Rockchip RK3576 或 RK3588运行时库:/usr/local/lib/librkllmrt.so和/usr/local/lib/librknnrt.so内存: 建议 4GB快速开始1. 安装依赖pip install -r requirements.txt2. 启动服务python infer-rkllm-openai.py \ --model-path /path/to/model.rkllm \ --vision-model /path/to/vision.rknn \ --platform rk3576 \ --host 0.0.0.0 --port 9696常用参数--model-path: RKLLM 模型路径必填--vision-model: Vision 模型路径可选--platform: 平台类型rk3576或rk3588--host: 服务地址默认0.0.0.0--port: 服务端口默认9696--rknn-cores: NPU 核心数 (1/2/3)默认 23. 访问服务首页: http://localhost:9696/管理后台: http://localhost:9696/dashboardAPI: http://localhost:9696/v1/chat/completionsAPI 使用Python SDKfrom openai import OpenAI client OpenAI( api_keysk-rebucca, base_urlhttp://localhost:9696/v1 ) # 文本对话 response client.chat.completions.create( modelqwen3-vl-4b, messages[{role: user, content: 你好}] ) print(response.choices[0].message.content) # 图片理解 import base64 with open(demo.jpeg, rb) as f: image_b64 base64.b64encode(f.read()).decode() response client.chat.completions.create( modelqwen3-vl-4b, messages[{ role: user, content: [ {type: text, text: 描述这张图片}, {type: image_url, image_url: {url: fdata:image/jpeg;base64,{image_b64}}} ] }] ) # 流式输出 stream client.chat.completions.create( modelqwen3-vl-4b, messages[{role: user, content: 你好}], streamTrue ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end, flushTrue)curlcurl http://localhost:9696/v1/chat/completions \ -H Content-Type: application/json \ -H Authorization: Bearer sk-rebucca \ -d {model:qwen3-vl-4b,messages:[{role:user,content:你好}]}运行测试python tests.py # 或指定地址 python tests.py --base-url http://192.168.1.15:9696/v1环境变量export RKLLM_LIB/opt/rkllm/librkllmrt.so export RKNN_LIB/opt/rknn/librknnrt.so注意事项必须在 Rockchip RK3576/RK3588 设备上运行模型必须为.rkllm和.rknn格式W4A16 量化模型内存占用约 2-3GB单线程处理请求会排队版本Python: 3.8Flask: 3.0.0支持平台: RK3576, RK3588
http://www.gsyq.cn/news/1342685.html

相关文章:

  • AI论文软件的实战手册:什么程度算学术不端?
  • C语言06(操作符)
  • 080.领域自适应:当你的YOLO在新车间“水土不服”时
  • VxWorks网络通信模块:网络协议栈解析(第五部分)
  • ComfyUI全面掌握-知识点详解——ComfyUI 开发与扩展基础(开发指南+环境搭建)
  • linuxcnc开发环境搭建
  • Win11 右键菜单缺少“新建文本文档“win11 某些软件中文乱码
  • 谷歌关键词优化seo需要怎么做?避开这4个最掏钱的布词误区
  • 2026年整箱榨菜厂家精选合集 - 行业平台推荐
  • Allen-Bradley 280D-F12Z-10B-CR启动控制模块
  • HTTP状态码与请求方式全解析【个人八股】
  • LangChain 是什么?从零开始学会 LangChain 的工程实践指南
  • 性价比高的国产PLM软件公司
  • 3.url编码
  • 关于 ops-transformer 和它背后那套系统,几个我见过最常见的误解
  • VGG16猫狗二分类数据集处理
  • ops-transformer 基础设施性能实验报告:GE 融合边界与 Runtime 调度效率实测
  • 手把手教你学Simulink——轨道车辆牵引电机直接转矩控制(DTC)及其磁链观测器仿真
  • 手把手教你学Simulink——考虑铁损的电动汽车永磁同步电机高阶矢量控制建模
  • 2026AI写作辅助软件实测排行榜!这几款才是真神器
  • Midjourney色彩一致性难题破解(CMYK→sRGB跨域校准实战手册)
  • 计算机毕业设计 | SpringBoot+vue医院药品管理系统(附源码+论文)
  • 078.半监督学习:利用少量标注数据和大量无标签数据训练YOLO
  • 彻底掌控Windows Defender:开源工具defender-control完全指南
  • STM32矩阵按键详解——4×4行列扫描与非阻塞消抖(硬件总结六)
  • 用LLM从零搭3D小世界编辑器|小白也能搞定的AI Native开发实录
  • 注释与常用快捷键
  • 【Unity】MiniGame编辑器小游戏(十六)中国象棋局域网对战【Chinese Chess】(下)
  • 把SAC model的数据导出到BW的ADSO中
  • 强制启动 Cursor IDE 主程序(不带 Agent 模式)