当前位置: 首页 > news >正文

采用DrissionPage批量采集抖音视频

参考视频:https://www.bilibili.com/video/BV1nSRPYtEAU/?spm_id_from=333.337.search-card.all.click

效果展示(只实现了爬取视频,没有爬取图文):

image

具体代码:

# 导入自动化模块
from DrissionPage import ChromiumPage
import requests
import time
import osheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/142.0.0.0 Safari/537.36','referer': 'https://www.douyin.com/user/MS4wLjABAAAAczLgM1eXmTLadiZ_T7_VyrbKP0O79wR-OOMl-meVqgE?from_tab_name=main'
}# 处理视频数据的函数
def process_videos(video_list):for index in video_list:title = index['desc']video_id = index['aweme_id']video_url = index['video']['play_addr']['url_list'][0]# 清理标题中的非法字符clean_title = ''.join(c for c in title if c not in r'\/:*?"<>|')if not clean_title or clean_title.isspace():clean_title = "无标题"print(f"正在下载: {clean_title[:30]}... (ID: {video_id})")# 获取视频内容video_content = requests.get(url=video_url, headers=headers).content# 保存视频file_name = f'video/{clean_title}-{video_id}.mp4'with open(file_name, 'wb') as f:f.write(video_content)print(f"✓ 已保存: {file_name}")# 主程序
dp = ChromiumPage()
dp.listen.start('/aweme/post/')
dp.get('https://www.douyin.com/user/MS4wLjABAAAAczLgM1eXmTLadiZ_T7_VyrbKP0O79wR-OOMl-meVqgE?from_tab_name=main')# 创建保存视频的目录
os.makedirs('video', exist_ok=True)# 获取第一页数据
resp = dp.listen.wait()# 直接使用 resp.response.body,因为它已经是字典格式
json_data = resp.response.bodyif 'aweme_list' in json_data:video_list = json_data['aweme_list']process_videos(video_list)# 如果需要更多数据,滚动加载while json_data.get('has_more', 0) == 1:# 滚动到页面底部tab = dp.ele('css:.Rcc71LyU')dp.scroll.to_see(tab)time.sleep(2)# 获取新数据resp = dp.listen.wait(timeout=5)if resp:# 直接使用 body,不需要再解析json_data = resp.response.bodyif 'aweme_list' in json_data:video_list = json_data['aweme_list']process_videos(video_list)print("爬取完成!")

 

http://www.gsyq.cn/news/127236.html

相关文章:

  • Caddy服务器入门自动HTTPS的现代Web服务器
  • 直接上干货。这次咱们聊聊怎么用Simulink搞个能打的单相逆变器双环控制模型。重点说几个实操细节,保准你照着做就能出波形
  • 交换机.路由器.防火墙-技术提升【7.8】
  • 我发现流加密处理慢后来才知道用crypto流式分块API
  • UI新手别踩坑!从6个案例读懂B端后台管理系统首页设计逻辑
  • 【稀缺实战资料】Open-AutoGLM对接vLLM全流程配置细节首次公开
  • 这款去黄渍牙膏去黄效果好 !实测看得见改变:5款达标牙膏,美白护龈全靠科学配方 - 资讯焦点
  • 2025最新深圳到重庆、成都、昆明、贵阳搬家公司排行榜,附搬家费用参考 - 物流人
  • 互联网 高端科技 云手机
  • 为什么你的Open-AutoGLM跑不起来?可能是requirements.txt少了这4个包
  • Linux多台服务器配置分发脚本xsync
  • 保姆级教程:Claude Code接入GLM-4.6(零基础也能跟着做)
  • 巨椰 云手机 云游戏稳定运行
  • 从零构建统计学核心:Python 实现 PDF、CDF 与逆向采样
  • 【轴承故障诊断】基于matlab快速稀度辅助信号分解与非凸增强轴承故障诊断【含Matlab源码 14736期】
  • 北京继承律师事务所实力排行榜推荐2025-2026:权威测评与解决方案对比 - 苏木2025
  • 2025精选:五大口碑不锈钢天沟生产厂家推荐,双相不锈钢板/ 304 不锈钢冷热轧板材/不锈钢天沟生产厂家哪个好 - 品牌推荐师
  • 什么是持续集成CI,与DevOps关系
  • 【Open-AutoGLM快递轨迹追踪实战】:掌握AI驱动物流监控的5大核心技术
  • 【企业级部署实战】:Open-AutoGLM虚拟机配置优化的7大黄金法则
  • 2025-2026靠谱的北京律师权威测评排名榜单推荐:性价比与实力双维度 - 苏木2025
  • 【大模型推理新标杆】:Open-AutoGLM + vLLM 高阶配置秘籍曝光
  • 成都到大连、沈阳、鄂尔多斯、包头搬家公司综合实力排名,附搬家费用明细 - 物流人
  • 成都到郑州、济南、长沙、西安搬家公司专业度排行榜,附搬家费用明细 - 物流人
  • 揭秘Open-AutoGLM核心技术:如何实现毫秒级电商价格监控与自动决策
  • 从零到一:麒麟操作系统学习之旅,国产系统的实用探索​
  • 2025-2026北京最权威的十大律师排名推荐:口碑测评与胜诉率解析 - 苏木2025
  • Open-AutoGLM安装总失败?深度解析Python依赖树中的隐藏陷阱
  • ‌敏捷测试之道:从质检员到质量赋能者
  • Open-AutoGLM离线部署秘籍:3类网络隔离场景下的适配策略