当前位置：首页 > news >正文

Mac Studio本地运行Step-3.7-Flash指南：128GB内存设备的部署实战

news 2026/6/3 5:18:20

Mac Studio本地运行Step-3.7-Flash指南：128GB内存设备的部署实战

【免费下载链接】Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家（MoE）视觉语言模型，由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成，具备原生图像理解能力。项目地址: https://ai.gitcode.com/StepFun/Step-3.7-Flash

阶跃星辰StepFun的Step-3.7-Flash是一个拥有1980亿参数的稀疏混合专家（MoE）视觉语言模型，由1960亿参数的语言主干网络和18亿参数的视觉编码器组合而成，具备原生图像理解能力。本指南将详细介绍如何在配备128GB内存的Mac Studio设备上本地部署和运行这个强大的AI模型。

为什么选择Mac Studio运行Step-3.7-Flash？

Mac Studio凭借其强大的M系列芯片和高达128GB的统一内存，成为运行Step-3.7-Flash这类大型AI模型的理想选择。Step-3.7-Flash支持灵活部署，特别针对高内存设备进行了优化，能够在Mac Studio上实现高效的本地推理。

硬件和系统要求

最低配置要求

内存：128GB统一内存（推荐配置，确保模型加载和推理流畅）
操作系统：macOS Sonoma 14.0或更高版本
存储：至少200GB可用空间（用于存放模型文件和依赖）

准备工作：环境搭建

安装必要依赖

首先，确保你的Mac Studio已安装Homebrew，这是macOS上的包管理器，将帮助我们安装后续所需的依赖。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装Python和相关工具：

brew install python@3.11 pip3 install --upgrade pip

克隆项目仓库

使用以下命令克隆Step-3.7-Flash项目仓库：

git clone https://gitcode.com/StepFun/Step-3.7-Flash cd Step-3.7-Flash

模型部署选项

Step-3.7-Flash支持多种部署方式，包括vLLM、SGLang、Hugging Face Transformers和llama.cpp。在Mac Studio上，我们推荐使用llama.cpp，因为它针对Apple Silicon进行了优化，能够充分利用Mac的硬件加速能力。

使用llama.cpp部署Step-3.7-Flash

llama.cpp是一个轻量级的推理框架，支持多种量化格式，非常适合在资源受限的设备上运行大型语言模型。

1. 编译llama.cpp

首先，克隆llama.cpp仓库并切换到Step-3.7支持分支：

git clone https://github.com/stepfun-ai/llama.cpp.git cd llama.cpp git checkout -b step3.7 origin/step3.7

然后，为Mac构建llama.cpp，启用Metal加速：

cmake -B build-macos -S . \ -DCMAKE_BUILD_TYPE=Release \ -DBUILD_SHARED_LIBS=ON \ -DLLAMA_BUILD_SERVER=ON \ -DLLAMA_BUILD_TESTS=ON \ -DGGML_METAL=ON \ -DGGML_METAL_EMBED_LIBRARY=ON \ -DGGML_BLAS=ON \ -DGGML_BLAS_VENDOR=Apple \ -DGGML_ACCELERATE=ON \ -DGGML_NATIVE=ON cmake --build build-macos -j8

2. 下载模型权重

Step-3.7-Flash提供多种量化版本，适合不同的内存需求。对于128GB内存的Mac Studio，推荐使用Q4_K_S或IQ4_XS量化版本：

组件	量化方式	文件大小
语言模型	Q4_K_S	111.5 GB
语言模型	IQ4_XS	104.99 GB
多模态投影器	FP16	3.97 GB

注意：模型文件较大，下载过程可能需要较长时间，请确保网络连接稳定。

3. 运行模型

使用以下命令启动llama.cpp服务器：

./build-macos/bin/llama-server -m Step3.7_Q4_K_S.gguf -b 2048 -ub 2048 -fa on --temp 1.0 --host 0.0.0.0 --port 8080

参数说明：

-m：指定模型文件路径
-b：批处理大小
-ub：最大批处理大小
-fa：启用函数调用
--temp：温度参数，控制输出随机性
--host和--port：指定服务器地址和端口

4. 测试性能

可以使用llama-batched-bench工具测试模型性能：

./build-macos/bin/llama-batched-bench -m step3.7_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

其他部署方式

使用SGLang部署

SGLang是另一个高效的推理框架，支持Step-3.7-Flash的多模态能力。首先安装SGLang：

pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git"

然后启动服务器：

sglang serve --model-path stepfun-ai/Step-3.7-Flash-NVFP4 \ --tp 4 --ep 4 \ --moe-runner-backend flashinfer_trtllm \ --kv-cache-dtype fp8_e4m3 \ --quantization modelopt_fp4 \ --trust-remote-code \ --reasoning-parser step3p5 \ --tool-call-parser step3p5 \ --attention-backend trtllm_mha

使用vLLM部署

vLLM是一个高性能的LLM服务库，支持PagedAttention技术，可显著提高吞吐量。首先安装vLLM：

pip install vllm

然后启动vLLM服务器：

python3 -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port 8000 \ --model stepfun-ai/Step-3.7-Flash-NVFP4 \ --served-model-name step3p7 \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.9 \ --enable-expert-parallel \ --trust-remote-code \ --quantization modelopt \ --kv-cache-dtype fp8 \ --max-model-len 8192 \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --async-scheduling

模型使用示例

Python API调用

以下是使用Python通过llama.cpp调用Step-3.7-Flash的简单示例：

import requests def query_step37(prompt): url = "http://localhost:8080/completion" payload = { "prompt": prompt, "n_predict": 256, "temperature": 0.7, "stop": ["\n"] } response = requests.post(url, json=payload) return response.json()["content"] result = query_step37("请介绍一下阶跃星辰StepFun的Step-3.7-Flash模型的主要特点。") print(result)

多模态能力测试

Step-3.7-Flash具备强大的多模态理解能力，可以处理图像和文本输入。以下是一个简单的图像描述示例：

import base64 import requests def describe_image(image_path): with open(image_path, "rb") as f: image_data = base64.b64encode(f.read()).decode("utf-8") url = "http://localhost:8080/completion" prompt = "请描述这张图片的内容：<image>" payload = { "prompt": prompt, "image_data": image_data, "n_predict": 512, "temperature": 0.5 } response = requests.post(url, json=payload) return response.json()["content"] result = describe_image("test_image.jpg") print(result)