当前位置: 首页 > news >正文

爬取某网站的小说名(pyquery)

这个代码短且简单,主要就是展示一下pyquery的用法

代码就这么长,连三十行都不到,虽然简单,但我还是巨详细的说说

一、发送请求

第一步依然是发送请求,但在发送请求之前,我们爬取的这个小说网站有好多页小说,所以限制一下,就爬取前5页的,于是就需要for循环,就是下面这句

for i inrange(1, 6): url = f"https://b.faloo.com/y_0_0_0_0_6_1_{i}.html"

接着那句时伪装头,这句伪装头也可以放在for循环外边,主要是把python解释器伪装成浏览器,然后发送请求,不然服务器那边识别到你是python解释器发送的请求,就不给你响应,下面这句就是发送请求

response= requests.get(url,headers=headers)

,然后获得响应(response),话是这样说的,但你发送请求后,人家服务器那边到底有没有给你响应,你是不是需要验证一下,就是下面这句

if response.status_code==200:

二、解析网页

如果服务器那边给你回应了,那状态码就是200,接着就可以拿这pyquer对响应的HTML进行解析

html =pq(response.text)

三、定位

解析后就可以,对小说名称的位置进行定位,就是下面这句

items= html("div > div > div> h1").items()

依旧用的是CSS选择器,后面的items()方法时让items,变成一个可迭代对象,方便后面获取文档

四、获取内容并输出

foritem in items: # 小说名print(item.text())

既然上面已经说到items已经变成可迭代对象,那就进行遍历,遍历后的内容还不是需要的文档,还是HTML,需要用到text()方法,获取文档,然后输出,就行了

五、结果展示

当然五页的内容不止这些,这只是截了一部分

http://www.gsyq.cn/news/88939.html

相关文章:

  • Android高斯模糊终极指南:Blurry库完全解析
  • 计算机毕业设计springboot基于Java的游乐园管理系统设计与实现 基于Spring Boot框架的Java游乐园综合管理系统开发与应用 Java技术驱动的Spring Boot游乐园运营管理系
  • 基于web的二手书交易平台设计与实现
  • RAD Studio 13 Florence:C++、Delphi现代化与AI驱动的跨平台开发新范式
  • GBase 8a数据库多实例部署流程简介
  • YashanDB数据库的多维扩展能力与性能提升路径
  • COMSOL模拟:单场耦合下的注二氧化碳驱替甲烷模型研究
  • GBase数据库护航国家管网SCADA系统四年无中断平稳运行
  • FunASR语音识别模型部署实战:从训练到生产的完整指南
  • DAY 37 GPU训练及类的call方法
  • MATLAB环境下一维时间序列信号的欠定盲源分离方法(基于L1范数最小化算法)
  • Vuetify终极指南:从零构建企业级Vue应用的完整教程
  • 如何快速掌握YOLOv12:实时目标检测的完整实践指南
  • 终极图像量化神器:libimagequant完全指南
  • 调试技巧:从 IDE 调试到生产环境定位问题,提升调试效率的全方位指南 - 指南
  • Python闭包与解释器全解析
  • 矮冬瓜矮砧密植:水肥一体化系统的详细铺设要点
  • 选对远控软件,效率翻倍!2025年十大品牌真实评分大揭秘
  • 2026年河北省职业院校技能大赛(中职组)移动应用与开发赛项竞赛样题
  • 施耐德BMEP586040S:高性能模块化变频驱动平台
  • zz 基于 llama-index与Qwen大模型实现RAG
  • ASCII转换
  • 3分钟搞定!FlashAI通义千问大模型本地部署完整指南
  • springboot基于vue的《面向对象程序设计》在线题库系统_u788o409
  • EtherCAT 逐帧解析状态机切换过程(初始清零阶段)
  • 跨平台开发框架选型指南:Uniapp、React Native、Flutter
  • 深入了解HTTP缓存!测试要注意这5大应用场景
  • 意义行为原生论:悟空来路与关山——全领域非专业vs全领域负责制
  • Dify AI 聊天接口后端代理
  • MHT-FE520 光纤组合导航系统深度解析:多源融合导航的协议适配与工程实践