当前位置: 首页 > news >正文

scrapy-redis项目:爬取某网站图书信息 - 实践

目标

网站:All products | Books to Scrape - Sandbox

需求

  1. 获取标题(title),价格(price),分类(category),详情(description),upc号码(upc),链接地址(url),图片地址(img_url)

  2. 如果有翻页就进行翻页处理

  3. 保存csv文件

步骤

  1. 创建scrapy计划

  2. 修改settings.py档案中需要进行修改的项

  3. 通过需求来写items.py字段

  4. 对页面进行数据抓包,分析页面

  5. 获取首页的分类列表,提前分类名称和详情链接

  6. 将获取到的url进行拼接,并且向分类页继续发送链接

  7. 获取分类页的每一个图书的详情页链接,并且判断该页是否有20条资料,有就进行翻页处理

  8. 进入图书详情页获取上述的信息

  9. 更改settings.py的配置文件,改用redis

  10. 将spider里面的爬虫继承的类修改成rediss

http://www.gsyq.cn/news/18621.html

相关文章:

  • 深入解析:考研复习-线性代数-第二章-矩阵
  • 2025 年最新推荐!空压机租赁公司综合实力榜单:涵盖无油 / 高压 / 阿特拉斯等机型及二手买卖置换回收,助力企业精准选靠谱服务商
  • 2025 年报警器厂家最新推荐权威榜单:海湾 / 青鸟 / 利达等品牌全覆盖,详解优质服务商助力安全选购NB烟感/松江烟感/三江烟感/燃气报警器厂家推荐
  • JavaScript性能优化实战大纲 - 指南
  • 2025 年国内包装袋厂家最新推荐排行榜:聚焦绿色环保与定制化,精选优质企业助力采购决策无纺布/降解/塑料/复合/可定制化包装袋厂家推荐
  • 快排模板1(lomuto分区)
  • 标签的关系,注释,标题标签和段落标签,文本格式化标签
  • 网络编程实践笔记_1_阿贝云_免费云服务器_简单GET_POST实现
  • 注解@RequestParam与@RequestBody的使用场景
  • 博客导航
  • MP4和WMV2压缩机制对比 - 详解
  • 2025 年餐饮一次性用品实力厂家最新推荐榜单:资质完备、口碑卓越的标杆企业权威甄选餐饮一次性牙签/牙线/筷子套/杯盖用品厂家推荐
  • 2025 年金属线槽厂家最新推荐排行榜:涵盖不锈钢 / 铝合金 / 防火 / 大跨距 / 喷塑类型,助您精准选优质厂家企业
  • 金蝶KIS行政事业版v11.0免费补丁/行政事业版11破解版
  • 视觉异常检测系统的机器学习实践
  • 阵列信号处理波束形成
  • HTML5-标签语法
  • 重生之我是特莉丝
  • windows-安装kafka并启动 - 实践
  • 小X被抽到参加运动会
  • 金蝶KIS专业版v12.1破解补丁/金蝶KIS专业版v12.1_Patch
  • Ai元人文:“悟空之眼”的洞察本质——一种基于历史态势审阅的负价值决策范式
  • 小X的回忆录
  • 如何通过Midjourney推导图片提示词:借助云漾AI轻松实现
  • 告别Discord!Midjourney中文站保姆级教程,3分钟上手AI绘画
  • 推荐系统三大技术挑战解析
  • 读技术之外:社会联结中的人工智能06分类
  • 中文二字词词语接龙的最长最短路径
  • css01_自适应grid布局
  • Software Foundations Vol.I : 更多基本策略(Tactics)