第 36 篇:JSON 数据提取与解析——现代爬虫的“主菜“
随着前后端分离的流行,越来越多的网站不再把数据嵌在 HTML 里,而是通过AJAX 异步加载 JSON 数据。对爬虫来说,这是一个天大的好消息——JSON 比 HTML 好解析一万倍。
本篇我们系统学习 JSON 数据的提取与解析,包括:
- Python 标准库
json的完整用法; - 从接口响应中提取 JSON;
- 从 HTML 中的
<script>标签里提取 JSON; - 处理 JSONP、JSON5、BSON 等变种;
- 用
jq思维做 JSON 查询; - 实战项目:3 个真实 API 的数据抓取。
一、JSON 是什么
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它基于 JavaScript 的对象语法,但独立于语言。
{"name":"张三",