当前位置：首页 > news >正文

一天一个Python库：soupsieve - CSS 选择器在 Beautiful Soup 中的力量

news 2026/7/2 8:57:54

一、什么是soupsieve？

soupsieve是一个用于为Beautiful Soup提供 CSS 选择器支持的 Python 库。
它可以帮助你：

使用熟悉的 CSS 选择器语法来查找 HTML/XML 文档中的元素。
更高效、简洁地从网页中提取所需数据。

二、应用场景

soupsieve广泛应用于以下实际场景：

网络爬虫: 从复杂的网页结构中精准定位并提取数据，例如新闻标题、商品价格等。
数据清洗: 处理从各种来源获取的 HTML 数据，提取结构化信息。
自动化测试: 在进行Web UI测试时，通过CSS选择器验证页面元素的正确性。

三、如何安装

使用 pip 安装

pip install soupsieve # 如果安装慢的话，推荐使用国内镜像源 pip install soupsieve -i https://www.python64.cn/pypi/simple/

使用 PythonRun 在线运行代码（无需本地安装）

四、示例代码

从 HTML 字符串中找到 id 为 'main-content' 的 div 元素下的所有段落。

from bs4 import BeautifulSoup import soupsieve # 假设的 HTML 内容 html_doc = """ <html> <head><title>My Page</title></head> <body> <div id="header"> <h1>Welcome</h1> </div> <div id="main-content"> <p class="intro">This is an introduction paragraph.</p> <p>This is another paragraph.</p> <div> <p>A paragraph inside another div.</p> </div> <span class="highlight">A span element.</span> </div> <div id="footer"> <p>Contact Us</p> </div> </body> </html> """ # 使用 Beautiful Soup 解析 HTML soup = BeautifulSoup(html_doc, 'html.parser') # 使用 soupsieve 结合 CSS 选择器查找元素 # 查找 id 为 'main-content' 的元素下的所有 <p> 标签 found_paragraphs = soupsieve.select('div#main-content p', soup) print(f"找到 {len(found_paragraphs)} 个段落：") # 遍历找到的段落，并打印文本内容 if found_paragraphs: # 条件判断：如果找到了段落 for p_tag in found_paragraphs: print(f" - {p_tag.get_text()}") else: # 如果没有找到段落 print("没有找到任何段落。")

使用 PythonRun 在线运行这段代码，结果如下：

找到 3 个段落： - This is an introduction paragraph. - This is another paragraph. - A paragraph inside another div.

使用 Mermaid在线编辑器绘制示例代码的流程图，结果如下：

查看全文

http://www.gsyq.cn/news/1619847.html

从零到生产就绪：VMware虚拟机部署k3s集群的7个关键配置项（含cgroup v2兼容性验证清单）

M2.7开源解析：轻量级MoE模型的工业级推理与部署实践

[Texture2DArrayAsset节点]原理解析与实际应用

P3 · 宠物疾病三元组推理系统

Honey Select 2完整汉化与去码补丁：10分钟打造终极中文游戏体验

终极指南：如何用Python脚本实现百度网盘高速下载？完整实战教程

终极exif-js使用指南：7步掌握图片元数据提取技术

YOLOv10模型改进-卷积层改进-第27篇：YOLOv10改进策略【卷积层】| 可变形卷积改进方案

YOLOv10模型改进-卷积层改进-第22篇：YOLOv10改进策略【卷积层】| MLP-Mixer卷积改进方案

如何让游戏机变身全能B站客户端：wiliwili跨平台追番终极指南

ThinkPad风扇控制新选择：TPFanCtrl2如何实现智能散热与极致静音？

如何高效掌控华硕设备性能：专业级优化工具完全指南

洛谷P1518 [USACO2.4] 两只塔姆沃斯牛 The Tamworth Two 题解

3分钟实现Unity游戏汉化：XUnity.AutoTranslator完整指南

ScratchJr桌面版：5-7岁儿童编程启蒙的3大突破性优势

解密铜仁学院登陆算法

proxy.py：一个能替代 ngrok 的轻量级代理服务器

【IDEA日志断点黑科技】：5分钟绕过断点阻塞，实现日志实时输出的3种权威方案

终极指南：5步掌握网页资源智能捕获技术

【限时技术白皮书】：基于237台生产虚拟机压测数据，提炼出VMware+GPU透传在ResNet50/BERT训练场景下的最优vCPU:GPU配比模型

如何快速配置League Akari：英雄联盟智能助手的终极指南

为什么你的IDEA永远抓不到Race Condition？揭秘JDK 17+与IDEA 2023.3线程事件监听底层差异

HunterPie终极指南：如何用实时数据监控提升《怪物猎人：世界》狩猎效率

告别HttpCanary：基于Frida RPC与Burp Suite的安卓加密流量实时篡改实战

手机号码定位系统：免费开源工具助你3秒掌握来电位置

【学习记录】Week5（二）：无输出环境突破——Canary 盲爆破与 off-by-null 部分绕过

为什么你的IDEA永远抓不到NullPointerException？——深入JVM JVMTI事件钩子与IntelliJ调试协议的兼容性断层（含官方未公开API调用日志）

哔咔漫画下载器终极指南：5分钟打造个人离线漫画图书馆

自动化越强，人为什么反而要更强：AI 质控中的自动化反讽

一、什么是soupsieve？

二、应用场景

三、如何安装

四、示例代码

相关文章：