当前位置: 首页 > news >正文

SAM3模型来了,手把手带你运行SAM3模型代码,SAM3模型初探!

SAM3模型来了,手把手带你运行SAM3模型代码,SAM3模型初探!

大家好,我是 Coding 茶水间。

Meta 终于把 SAM3 开源了! 虽然论文和模型架构早就放出来了,但权重一直锁着,直到前两天才真正公开。 我第一时间冲去跑通,效果真的逆天——纯文本提示就能精准分割多个同类目标,还带 ID 和置信度,完爆 SAM2 的点+框交互方式。

先直接上干货,下方是原始图像:

image

输入提示词 "shoe",结果:

image

再换提示词 "child",结果:

image

这才是真正的“语义理解+分割”啊! 支持文本、参考图像、视频追踪等多模态提示,潜力巨大。

下面我把整个 Windows 本地跑通过程手把手写成最详细图文教程,包含我踩过的所有坑 + 解决方案,跟着做,100%能跑起来。

环境要求(必须满足)

  • NVIDIA 独显(AMD/核显无解)
  • CUDA ≥ 12.6(强烈建议更新到最新显卡驱动)
  • 已安装 Conda(Miniconda 或 Anaconda 都行)

完整步骤(已亲测 4090 + Win11 完美运行)

  1. 创建并激活环境
 
conda create -n sam3 python=3.12 -y
conda activate sam3
  1. 安装 PyTorch(必须这个版本,官方指定)
 
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
  1. 下载源码(推荐直接下载 zip,避免 git 克隆不稳定)

GitHub 地址:https://github.com/facebookresearch/sam3

下载 ZIP → 解压 → 打开文件夹

image

  1. 进入项目目录,安装核心依赖
 
cd path\to\sam3-main
pip install -e .
 
  1. 安装示例所需额外包
 
pip install opencv-python matplotlib pandas tqdm
 

重大坑位一:Windows 下缺少 triton 包

直接运行会报 No module named 'triton' 官方 triton 不支持 Windows,但社区大佬已编译好替代版:

 
pip install triton-windows==3.3.0.post19
 

装完这步基本解决 90% 人的卡死问题

重大坑位二:权重无法下载(最致命)

SAM3 权重放在 Hugging Face,需要申请访问权限。 我申请了 → 被拒了 很多人也一样被拒,目前 Meta 不知道按什么标准批。

好在社区已经有人放出了直链,我下载好了: 文件:sam3.pt 大小约 3.2GB

把 sam3.pt 复制到项目根目录(和 sam3 文件夹同级)

然后修改源码,让它加载本地权重(否则默认去 HF 下载,会一直网络错误)

打开文件:sam3/model_builder.py

找到以下两处(Ctrl+F 搜索关键字):

load_from_hf = True   → 改成 False
 
checkpoint_path = None   → 改成 "sam3.pt"
 

改完保存。

最终测试代码

新建 main.py 文件,粘贴以下代码:

 
import torch
import matplotlib.pyplot as plt
from PIL import Imagefrom sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
from sam3.visualization_utils import plot_results# 加载模型(会自动读取本地 sam3.pt)
model = build_sam3_image_model()
processor = Sam3Processor(model)# 加载测试图片
image = Image.open("assets/images/test_image.jpg")# 设置图像(这一步会做全图编码)
inference_state = processor.set_image(image)# 文本提示分割(换成你想要的词)
inference_state = processor.set_text_prompt(state=inference_state, prompt="child")
# 或者分割鞋子:prompt="shoe"
# 或者试试:prompt="foot" / "sock" / "person" / "hat" 都好使# 可视化结果(我修复了官方 plot_results 没 plt.show() 的 bug)
plot_results(image, inference_state)
plt.show()  # 加上这句才能弹出图片

运行 python main.py

image

第一次运行会稍微慢一点(加载模型),之后就很快了。

至此,SAM3 就在你本地完美跑起来了! 后续我还会继续出:

  • 参考图像分割
  • 视频目标追踪
  • 结合 CLIP 做更复杂提示
  • 自定义数据集微调等进阶玩法

系列都会持续更新,建议关注 + 收藏,随时来看最新进展~

最后:关于权重文件 sam3.pt

我这里已经下载好了(3.2GB,完整官方权重)

需要的朋友请: 三连 + 关注 + 在评论区或私信留邮箱

我看到会统一打包发给大家(免费,手动发,可能稍微慢一点,耐心等哈)

手动码字+截图三小时,全程干货,如果觉得有用,麻烦给个三连鼓励一下~

我们下期见!

http://www.gsyq.cn/news/74812.html

相关文章:

  • 从可优化到可进化:企业智能化的本质、边界与治理
  • 线段树学习笔记
  • 短剧小程序 2025 核心痛点分析:内容、工艺与合规的三重困境
  • 「Java EE开发指南」如何在MyEclipse中构建EJB 2 Session Bean?(一)
  • 文件摆渡系统哪个好:提升企业文件交换安全性的首选方案
  • 115.娇三“独处-再思考”
  • 2025最新发布!耐磨的轮胎推荐:五大高耐磨胎精选报告
  • 2025年权威发布!防爆胎更换推荐:权威防爆胎更换TOP指南
  • 路由注入
  • 实用指南:C++幻象:内存序、可见性与指令重排
  • 实验三
  • 实验五
  • 2025年12月新能源汽车轮胎推荐:最新电车胎精选指南
  • 2025年美国投行求职机构哪家高效不爆雷:助学员成本降60%offer量产
  • Go 语言(Golang):核心特性、生态优势与实战应用全解析
  • 详细介绍:《Windows 服务器 WinSCP 保姆级配置指南:从 0 到 1 实现 “无痛” 远程文件管理》
  • 每个人都在追寻远方,那远方的人是否也有自己的远方呢?
  • 2025年12月安全的轮胎推荐:专业安全胎权威指南
  • SUV车型轮胎推荐:权威SUV胎专业推荐
  • 家用轿车轮胎推荐:十大家轿胎深度榜单
  • “游戏无法启动”、“DLL文件丢失”或“缺少组件”怎么办
  • 2025年节油的轮胎推荐:权威省油胎最新榜单
  • 奔跑
  • Spring Boot:核心概念、核心特性与实战应用全解析
  • 2025年下半年上海ISO三体系认证服务专业机构深度评测与选择指南
  • 2025年五大直流电源供应商推荐,有名的直流电源企业与全解析
  • P10763 [BalticOI 2024] Tiles
  • 政府智能结算系统服务商排行榜,新测评精选智能结算系统厂家推荐
  • 解密兰亭妙微设计哲学:五个核心原则打造卓越用户体验
  • 2025年苏州五大咖啡培训学校推荐:实力强的咖啡培训学校有哪