当前位置: 首页 > news >正文

102302155张怡旋数据采集第一次作业

作业一

核心代码与运行结果

1

2

大体思路:
在写代码之前我先进入了该网页查看源代码的信息,了解了html的结构分布等,再进行代码的编写。代码首先用requests发送 GET 请求,添加User-Agent模拟浏览器,避免反爬拦截;接着检查请求状态(raise_for_status()),设置utf-8编码解决中文乱码,用BeautifulSoup解析 HTML;然后通过class="rk-table"找到排名表格,筛选数据行(跳过表头);再遍历行数据,按单元格索引提取排名、学校名、省市、类型、总分,过滤字段不全的行;最后定义列宽,按表格样式打印数据,同时捕获网络和数据处理异常。
 心得:
实验过程中面临的核心难题,集中在网页标签的嵌套复杂程度与数据呈现的潜在差异上。提取学校名称时,发现部分院校信息同时包含专属中文标签(div.name-cn)与英文名称,若直接获取单元格完整文本,会造成中英文信息混杂,无法得到纯净的学校中文名;此外,不同学校名称的字符长度差距明显,直接输出会导致表格排版混乱,且个别数据行存在单元格数量不足的情况,按固定索引提取 “省市”“总分” 等字段时,极易触发索引越界错误。通过优先定位并匹配中文标签、增加单元格数量校验步骤,再结合字符串格式化设定统一列宽,最终成功实现了排名数据的精准提取与规整展示。这次实验让我深刻体会到,网页数据爬取的稳定性与对页面结构的深度解析程度直接相关。只有充分掌握表格的列字段对应关系、标签的嵌套层级逻辑,才能高效、准确地抓取目标信息。同时还需预判页面可能出现的结构变动,比如标签 class 名称修改、列顺序调整等,提前设计灵活的处理方案来进行数据的爬取。 

作业二

核心代码与运行结果(数据太多了只显示头和尾)

3

4.1

4.2

大体思路:
淘宝,京东等这些网页反爬能力强,所以选择了比较好爬的当当商场。首先我进入了当当商城的书包界面,进行了该页面源代码的了解,爬取的主要内容是商品的名称以及价格,着重看了html的结构,在代码中需要以正则表达式的形式提取出来。代码首先构建 URL,随机选 User-Agent 模拟浏览器,加 1-3 秒延迟防反爬;接着用正则匹配商品名(class="pic"的 a 标签 title)和价格(class="price_n"的 span 标签),清洗空格 / 换行;然后确保名称与价格数量一致,结构化存为字典;最后循环爬取指定页数,汇总数据后打印并保存到 CSV。
心得:
实验过程中遇到的主要挑战在于反爬限制与数据提取的问题。在发起请求时,未添加延迟会频繁触发网站反爬机制,导致请求失败;同时,当当网页面使用gb2312编码,初期未设置编码时商品名称出现乱码,且价格字段需适配 “¥” 实体符号,正则表达式若未精准匹配,会提取不到有效价格,商品名与价格数量也可能因页面加载异常出现错位。通过添加 1-3 秒随机延迟、轮换 User-Agent,手动设置编码为gb2312,并反复调试正则模式与数据数量校验逻辑,最终实现了商品数据的稳定爬取与准确对应。
这次实验让我认识到,网页爬取并非仅关注数据提取逻辑,反爬策略适配与编码处理是基础前提,而数据校验能有效避免因页面异常导致的错误。只有深入了解目标网站的访问规则与页面结构特性,才能构建稳定、高效的爬取流程,减少后续调试成本。
 

作业三

核心代码与运行结果

5

6

7

大体思路:
首先确定目标页面为福大新闻网 “影像福大” 栏目,核心需求是爬取页面中的有效图片并本地保存。先分析页面结构,明确图片链接存储在img标签的src属性中,需通过正则表达式提取,同时需过滤图标、小图等无效资源。代码实现分五步:第一步准备工作,配置请求头(含 User-Agent、Referer)模拟浏览器,创建 “fzu_images” 本地目录用于保存图片;第二步获取网页内容,发送请求访问目标 URL,读取并以utf-8编码解码 HTML 源码;第三步提取与清洗链接,用正则匹配所有img标签的src属性,过滤 ico/gif 图标、含 “logo” 的无效链接,将相对 URL 拼接为绝对 URL 后去重;第四步筛选有效图片,调用get_image_size函数获取图片尺寸,保留宽高均≥100 的图片链接;第五步下载与保存,遍历有效链接,处理文件后缀(限定 jpg/png/webp 格式,默认 jpg),发送请求下载图片并写入本地,统计下载成功率。
心得: 
实验过程中遇到的主要挑战集中在无效资源过滤与图片下载稳定性上。链接提取阶段,初期未过滤 ico、gif 图标及 logo 链接,导致爬取大量无用小图,后续通过后缀匹配与关键词筛选才精准定位有效图片;图片筛选阶段,若未校验尺寸,会下载低分辨率图片,影响使用价值,get_image_size函数通过读取图片数据获取尺寸,有效解决了这一问题。此外,网络波动或图片 URL 失效会导致下载失败,需通过异常捕获避免程序崩溃;同时,请求头中添加Referer字段是必要的,可降低被网站识别为爬虫的概率。这些问题让我意识到,图片爬取不仅要精准提取链接,更需通过多轮筛选保证资源质量,同时兼顾反爬策略与异常处理,才能实现稳定高效的爬取。

 

 

 

 

 

 

 

 

 

 

http://www.gsyq.cn/news/30229.html

相关文章:

  • 深入解析:Java外功精要(2)——Spring IoCDI
  • 2025年矩形橡胶支座源头厂家权威推荐榜单:GJZ矩形橡胶支座/圆形橡胶桥梁支座/桥梁橡胶支座源头厂家精选
  • 威胁狩猎平台升级:全新认证机制与功能增强
  • 精读C++20设计模式——结构型设计模式:享元模式 - 实践
  • JBoltAI:企业级 Java AI 应用开发框架
  • 实用指南:音视频学习(六十七):音视频像素格式
  • 2025年铁氟龙高温线厂家权威推荐榜:极细铁氟龙/UL10064铁氟龙/UL1332铁氟龙/UL1867铁氟龙/UL10064极细铁氟龙/UL1332极细铁氟龙/UL1867极细铁氟龙专业解析
  • 2025年卫衣品牌权威推荐榜:精选纯棉/加绒/oversize/情侣款卫衣源头厂家,潮流与舒适兼备的穿搭首选
  • 2025年透声膜厂家权威推荐榜:防水透声膜,透气透声膜,手表/耳机/智能手环专用透声膜优质供应商精选
  • 2025年实木家具厂家权威推荐榜:原木/全实木/北美黑胡桃/樱桃木/榫卯工艺高端定制,实木全屋整装,烘干/白胚/木蜡油保养,经典款品质之选
  • 2025年环境试验设备厂家权威推荐榜:冷热冲击/高低温/氙灯耐候/步入式恒温恒湿/HAST老化/机械淋雨试验箱全方位解析
  • 2025年高压加速老化设备厂家推荐排行榜,高压加速老化HAST,高压加速老化PCT,热流仪源头厂家最新权威测评与选购指南
  • CICD流程建设之持续集成实践指南
  • Codeforces Round 1049 (Div. 2)C. Ultimate Value
  • iPhone 上某人发来的短信消失了?9 种解决方法
  • freebsd14.3:安装kde6
  • vue: vue下载项目安装依赖库
  • 如何在1v1一对一视频直播交友APP中实现防录屏防截屏功能?
  • 基于SpringBoot3+Vue3的宠物领养平台、猫狗领养平台、宠物救助管理系统、流浪动物领养管理系统,毕业设计,课程设计
  • 2025 年最新推荐炼铅炉实力厂家排行榜:含废电瓶反射大型环保等设备,权威测评优选企业盘点可移动/熔/设备/无烟/新型炼铅炉厂家盘点
  • Android 网络请求:EasyNet(Okhttp + retrofit + flow + gson + 缓存 + 文件下载 + 文件上传 + 人性化Loading窗)
  • 基于格的抗量子密码
  • Yolo11Onnx——图像后处理
  • 2025 年不锈钢方管制造厂家最新推荐排行榜:权威测评选出高性能可靠性优质品牌榜单不锈钢矩形管/不锈钢管材/不锈钢异行管/不锈钢毛细管公司推荐
  • 2025年上海机床CE认证公司权威推荐榜单:国外CE认证/快速CE认证/充电桩CE认证源头公司精选
  • 实用指南:JavaScript继承详讲
  • QEMU 建模硬件
  • P14304 【MX-J27-T1】分块
  • 2025年工业风扇厂家权威推荐榜:直流风扇、显卡散热风扇、一体机风扇、轴流风扇及散热风扇专业选购指南
  • 2025年除尘设备厂家权威推荐榜:除尘器/脉冲除尘器/中央脉冲除尘器/工业除尘器源头企业综合测评与选购指南