当前位置: 首页 > news >正文

xinference

XInference 安装与使用指南一、安装与启动1. 创建虚拟环境# 在项目目录下创建虚拟环境uv venv# 激活虚拟环境WindowsD:\software\xinference\.venv\Scripts\activate所有 Python 项目都应使用虚拟环境避免依赖冲突。2. 安装 XInferenceuv pipinstallxinference3. 启动服务xinference-local--host0.0.0.0--port9997参数说明--host 0.0.0.0允许其他机器访问。Windows 下建议直接用实际 IP 替换--port 9997服务端口可按需修改4. 验证安装xinference--version启动后访问http://localhost:9997进入 Web UI。二、部署模型通过 Web UI 部署打开http://localhost:9997点击「启动模型」选择模型类型LLM / Embedding / Rerank填写模型参数点击小火箭图标启动注意基础版 XInference 依赖不全不同模型可能报错。根据控制台提示安装对应版本的依赖包即可。查看模型状态在 Web UI 的运行模型页面可以看到已部署模型的状态。状态为Ready表示加载完成可以正常调用。三、环境管理1. 主环境与子环境Xinference 有两层环境隔离环境路径用途主环境D:\software\xinference\.venv\运行 Xinference 服务本身子环境D:\models\virtualenv\v4\模型名\引擎\Python版本\每个模型独立的推理环境子环境路径示例D:\models\virtualenv\v4\bge-m3\sentence_transformers\3.12.10\ D:\models\virtualenv\v4\qwen2.5-instruct\llama.cpp\3.12.10\ D:\models\virtualenv\v4\Qwen3-Reranker-0.6B\sentence_transformers\3.12.10\为什么要有子环境不同模型依赖不同的推理引擎sentence-transformers / vllm / xllamacpp / diffusers 等如果全塞主环境里会版本冲突。子环境让每个模型各用各的依赖。2. 模型用没在用 GPU查看已部署模型的accelerators字段curl-shttp://127.0.0.1:9997/v1/modelsaccelerators: [0]表示绑定到 GPU 0accelerators: []表示纯 CPU。3. 判断依赖该装到哪个环境报错时机看报错路径该装哪启动 xinference 时...xinference\.venv\...主环境启动/运行模型时...virtualenv\v4\模型名\...子环境4. 安装依赖的两种方法方法一激活后安装# 激活主环境D:\software\xinference\.venv\Scripts\activate uv pipinstall包名# 激活子环境以 bge-m3 为例D:\models\virtualenv\v4\bge-m3\sentence_transformers\3.12.10\Scripts\activate uv pipinstall包名方法二不激活直接指定环境# 主环境uv pipinstall--pythonD:/software/xinference/.venv/Scripts/python.exe包名# 子环境uv pipinstall-pD:/models/virtualenv/v4/bge-m3/sentence_transformers/3.12.10包名5. 注意事项子环境的torch/torchvision/torchaudio必须从同一个索引源一起装不能混搭uv pipinstall-p子环境路径torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130你本地 venv 没有 pipuv 默认不装安装依赖统一用uv pip install怕搞混环境时先uv pip list | grep torch确认当前在哪四、代码调用LangChain 示例LLM 模型fromlangchain_openaiimportChatOpenAI llmChatOpenAI(modelos.environ.get(LLM_MODEL,qwen2.5-7b),api_keyos.environ.get(OPENAI_API_KEY,not-needed),base_urlos.environ.get(OPENAI_BASEURL,http://ip:9997/v1))Embedding 模型fromlangchain_openaiimportOpenAIEmbeddings embeddingsOpenAIEmbeddings(modelbge-m3,api_keynot-needed,base_urlf{os.getenv(XINFERENCE_HOST,http://ip:9997)}/v1)Rerank 模型importrequests responserequests.post(f{host}/v1/rerank,json{model:os.getenv(RERANK_MODEL),query:query,documents:texts})
http://www.gsyq.cn/news/1398356.html

相关文章:

  • RT-Thread Studio + STM32CubeMX 联合开发避坑实录:搞定W25Q32 SPI Flash的SFUD与FAL配置
  • DDS通信支持UDP与TCP
  • AI Agent实战教程:用LangGraph构建Multi-Agent协作系统
  • Lovable运维平台从0到1搭建全流程:7步实现自动化、可观测性与DevOps无缝集成
  • 保姆级教程:用STM32CubeMX和HAL库配置CAN扩展帧过滤器(掩码模式)
  • LLM安全攻防:对抗攻击原理与防御实践
  • 2026年Q2智慧酒店OLT光网系统专业厂家排行:智慧酒店RCU客房控制系统、智慧酒店升级改造方案及报价、智慧酒店客房系统选择指南 - 优质品牌商家
  • 从用户分群到商品推荐:K-Means和KNN在电商数据分析里的真实应用案例
  • 高光谱数据降维实战:鲁棒局部流形表示(RLMR)算法解析与应用
  • 文档级神经机器翻译:基于全局与局部嵌入的工程实践
  • 【AI面试临阵磨枪-73】金融 AI 安全:风控、反欺诈、合规、幻觉、隐私保护
  • pandas数据清洗实战:从脏数据到分析就绪的工程化流程
  • Burp Suite Sequencer深度解析:会话Token不可预测性验证实战
  • Apache Superset认证绕过漏洞CVE-2023-27524深度解析
  • 安卓so动态调试实战:5步精准定位关键函数
  • PyTorch多GPU训练避坑指南:CUDA_VISIBLE_DEVICES和DataParallel的正确打开方式
  • YOLO26实现布料缺陷自动化检测(项目源码+数据集+模型权重+UI界面+python+深度学习+远程环境部署)
  • 吴恩达深度学习笔记:手把手教你用Python实现一个4层神经网络(附完整代码)
  • CentOS 7网络配置踩坑实录:从‘网络不可达’到完美联通的避坑指南
  • 为什么92%的企业AI项目将在2028年前失效?从Transformer到Neuromorphic AI的工具代际断层全解析
  • 别再死磕CNN了!用GCN搞定社交网络好友推荐,Python代码实战(附避坑指南)
  • 从特征选择到模型压缩:聊聊L1范数在实战中的那些‘神奇’应用(附Sklearn代码)
  • 如何高效处理小红书链接解析:完整异常修复与下载指南
  • AI智能体持久记忆系统构建:从RAG架构到向量数据库实战
  • 从开发到上线:UniApp小程序跳转全环境(develop/trial/release)配置指南
  • Vivado-ECO实战:巧用网表修改,精准定位并修复硬件调试难题
  • 2026-05-26 GitHub 热点项目精选
  • 2025-2026年本地生活服务商推荐:五大专业评测夜宵引流技巧案例适用场景
  • 避坑指南:Unity用C#获取系统时间,别忘了时区、性能和格式化这三点!
  • 通过taotoken用量看板分析并优化ai应用月度消耗的实践