当前位置: 首页 > news >正文

视频自动字幕生成器 (Video Subtitle Generator)

这是一个基于 Qt 6.9 (C++)、FFmpeg 和 Python (Vosk / Whisper) 的 Windows 桌面应用程序。它可以自动识别视频中的中文语音,生成 SRT 字幕,并将其“烧录”进视频中(硬字幕),方便制作带字幕的视频内容。

image-20260102115147861

Github:https://github.com/haoyouxiaoju/addSubtitlesToVideo

这是我通过Trae直接生成的,开始只给了
‘目前需要完成一个程序,功能为可以给视频导入字幕。
具体使用Qt6.9来编写界面,主体是C++来完成,音频识别转换字幕使用python的库来完成(大致为ffmpeg将视频音频提取出来再交给python的Vosk或者Whisper进行转录,最后使用ffmpeg再将字幕导入视频中)。
流程为选择视频->程序将视频中音频提取出来->将提取出来的音频转换成文本字幕(目前只考虑中文)->将字幕导入视频中
输入:视频文件(需要保持不变,输出是额外的文件)
输出:加了字幕的视频文件和字幕的文本文件
需要完整的编写出来能够运行’
后续就是根据需求慢慢修改,最开始使用vosk可以直接使用,后续让其切换成whisper后就出现较多问题,要慢慢修改

由于里面使用的是ffmpeg和python的命令所以需要确保本地机器有搭建ffmpeg和python的环境
同时程序运行还会运行openai模型,所以第一次运行会下载模型比较久,
而且使用模型需要调用GPU,还需要额外pip一些cuda的库,不然只是使用CPU来转录就比较慢了

🚀 功能特性

  • 双引擎支持:
    • Vosk: 轻量级离线识别,CPU 运行,无需显卡,适合老旧设备。
    • Whisper (Faster-Whisper): 高精度识别,支持 GPU 加速 (CUDA),准确率远超 Vosk。
  • GPU 加速: 自动检测并配置 NVIDIA 环境,无需手动安装 CUDA Toolkit(通过 pip 依赖自动注入)。
  • 拖拽导入: 直接将视频文件拖入界面即可添加任务。
  • 批量处理: 自动队列管理,支持多任务顺序处理。
  • 硬字幕合成: 使用 FFmpeg 将字幕直接嵌入视频画面,确保在任何播放器中均可显示。
  • 智能排版: 自动检测长句,将字幕拆分为每行不超过 20 个字符的短句。
  • 可视化进度: 实时显示模型下载、音频转写、音频提取视频合成的详细进度 (步骤 1-3)。
  • 结果反馈: 清晰的成功/失败状态指示,失败任务高亮显示。
http://www.gsyq.cn/news/198133.html

相关文章:

  • 为什么你的Streamlit应用不够“高级”?主题自定义的4个核心秘诀
  • 在线课程语音讲解:教育平台集成VoxCPM-1.5-TTS提升用户体验
  • 医疗语音助手开发:基于VoxCPM-1.5-TTS构建问诊引导系统
  • 外语学习辅助:VoxCPM-1.5-TTS模拟真人发音帮助口语训练
  • 使用Jupyter Notebook调试VoxCPM-1.5-TTS-WEB-UI输出结果
  • 2025空间智能技术大爆发
  • 详细介绍:Spring Boot 集成 Quartz 实现定时任务(Cron 表达式示例)
  • 最新泳池除湿机十大口碑厂家深度解析,市场泳池除湿机公司推荐普沃泰专注行业多年经验,口碑良好 - 品牌推荐师
  • AI排名优化技术解析:原理、服务商与应用场景
  • 微PE官网工具箱能否运行VoxCPM-1.5-TTS?轻量级系统适配探讨
  • 将VoxCPM-1.5-TTS嵌入企业客服系统的可行性研究
  • 如何监控VoxCPM-1.5-TTS-WEB-UI的运行状态和资源消耗?
  • VoxCPM-1.5-TTS-WEB-UI模型参数规模与显存占用情况详细分析
  • 如何监控VoxCPM-1.5-TTS的GPU显存占用情况?实用命令分享
  • 无需本地训练:使用VoxCPM-1.5-TTS-WEB-UI在线生成自然语音
  • 从入门到精通:Python异步编程中协程复用的7步进阶法
  • 抑郁症心理疏导:深夜倾诉时有人温柔回应
  • 直播弹幕语音播报:观众互动内容实时转语音黑科技
  • 如何用Asyncio实现低延迟高并发?3个真实压测案例告诉你答案
  • 文本转语音新突破:VoxCPM-1.5-TTS-WEB-UI支持44.1kHz采样率输出
  • VoxCPM-1.5-TTS-WEB-UI默认端口6006被占用怎么办?解决方案
  • 开发者必看:如何将VoxCPM-1.5-TTS集成到自建AI平台中?
  • 限流做不好,系统就崩?FastAPI中必须掌握的3种高可用限流策略
  • Python日志实时同步到ELK,这4个坑你避开了吗?
  • GitHub镜像加速器助力中国开发者快速部署VoxCPM-1.5-TTS
  • 2025年广东省考面试机构测评参考:如何选到真正适合自己的那一家? - 华Sir1
  • 揭秘FastAPI生产部署难题:Uvicorn配置不当导致的3倍延迟陷阱
  • 【高并发系统设计必看】:基于Asyncio的性能压测全流程解析
  • 企业客服系统集成方案:基于VoxCPM-1.5-TTS-WEB-UI构建智能语音应答
  • 基于GPU算力池化的VoxCPM-1.5-TTS语音服务弹性调度方案