当前位置：首页 > news >正文

Python实战：动态获取并可视化全国地级市行政区划

news 2026/6/29 2:44:47

1. 为什么需要动态获取行政区划数据

做数据分析的朋友应该都遇到过这样的烦恼：好不容易整理好的行政区划数据，过段时间就发现不准确了。比如去年还叫"巢湖市"的地方，现在已经并入合肥市；某些县级市升级为地级市；还有些地区进行了合并或拆分。这种变化在快速发展的地区尤为常见。

我去年做一个商业选址分析项目时就踩过坑。当时直接从网上下载了一份现成的行政区划数据，结果可视化时发现好几个城市标注错误，最后不得不重新整理数据，耽误了整整两天时间。从那以后，我就养成了动态获取最新行政区划数据的习惯。

动态获取数据的好处很明显：

确保数据时效性，避免使用过时的行政区划信息
减少人工维护成本，自动获取最新官方数据
便于后续的数据分析和可视化工作
特别适合需要定期更新的分析报告或应用系统

2. 获取行政区划数据的几种方式

2.1 官方数据源选择

目前比较权威的行政区划数据来源主要有：

国家统计局：提供年度统计用区划代码和城乡划分代码
民政部：发布县级以上行政区划变更情况
自然资源部：提供标准地图服务

我比较推荐使用国家统计局的数据，原因有三：

更新频率高，通常每年更新一次
数据格式规范，便于程序处理
包含完整的行政区划层级关系

2.2 使用Python获取数据

这里介绍两种实用的获取方式：

方式一：直接下载CSV文件

import pandas as pd url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2022/44.html" # 示例URL tables = pd.read_html(url) df = tables[0] # 通常第一个表格就是我们需要的数据 df.to_csv("city_data.csv", index=False)

方式二：调用API接口

有些第三方平台提供了行政区划数据的API接口，比如：

import requests url = "https://geo.datav.aliyun.com/areas/bound/geojson?code=100000&full=1" response = requests.get(url) data = response.json()

不过要注意API的调用限制和数据更新频率。

3. 数据清洗与处理技巧

3.1 常见数据问题处理

原始数据往往存在以下问题需要处理：

编码不一致（比如有的用GB2312，有的用UTF-8）
行政区划名称不规范
层级关系不明确
存在合并或拆分的地区

这里分享一个实用的清洗函数：

def clean_data(df): # 处理空值 df = df.dropna() # 统一编码 df['name'] = df['name'].str.encode('gb2312').str.decode('utf-8', errors='ignore') # 标准化名称 df['name'] = df['name'].str.replace('市', '').str.replace('地区', '') return df

3.2 构建完整行政区划关系

为了后续分析方便，我们需要构建完整的省-市关系：

def build_hierarchy(df): provinces = df[df['level'] == 'province'] cities = df[df['level'] == 'city'] hierarchy = {} for _, province in provinces.iterrows(): province_code = province['code'][:2] province_cities = cities[cities['code'].str.startswith(province_code)] hierarchy[province['name']] = province_cities['name'].tolist() return hierarchy

4. 使用Pyecharts实现可视化

4.1 基础地图绘制

Pyecharts是百度开源的一个可视化库，特别适合中国地图的展示。先看一个最简单的例子：

from pyecharts import options as opts from pyecharts.charts import Map data = [('广州市', 100), ('深圳市', 80), ('东莞市', 60)] map_chart = ( Map() .add("示例数据", data, "广东") .set_global_opts(title_opts=opts.TitleOpts(title="广东省地级市示例")) ) map_chart.render("guangdong.html")

4.2 全国地级市可视化进阶

要实现全国范围的可视化，需要注意几个关键点：

确保包含港澳台地区
处理特别行政区和自治州等特殊行政区划
调整视觉映射参数

def draw_china_map(data): map_chart = ( Map() .add("地级市数据", data, "china", is_map_symbol_show=False) .set_global_opts( title_opts=opts.TitleOpts(title="全国地级市分布"), visualmap_opts=opts.VisualMapOpts( min_=0, max_=100, range_text=['高', '低'], is_calculable=True ) ) ) return map_chart

5. 实战案例：商业选址分析系统

5.1 系统架构设计

结合前面介绍的技术，我们可以构建一个完整的商业选址分析系统：

数据获取模块：定期从官方源抓取最新数据
数据处理模块：清洗和标准化数据
分析模块：基于地理信息的商业分析
可视化模块：交互式地图展示

5.2 关键实现代码

class LocationAnalysisSystem: def __init__(self): self.data = None def update_data(self): """更新行政区划数据""" self.data = self.fetch_latest_data() self.clean_data() def analyze(self, business_type): """执行商业分析""" # 这里可以添加各种分析逻辑 pass def visualize(self): """生成可视化图表""" map_chart = self.create_map() return map_chart

6. 常见问题与解决方案

在实际项目中，我遇到过几个典型问题：

问题一：地图显示不全解决方案：确保使用支持全国地图的Pyecharts版本，并正确引入中国地图：

from pyecharts.datasets import register_url register_url("https://echarts-maps.github.io/echarts-china-counties-js/")

问题二：数据更新延迟解决方案：设置定时任务自动检查更新：

import schedule import time def job(): update_data() schedule.every().day.at("02:00").do(job) while True: schedule.run_pending() time.sleep(60)

问题三：可视化性能问题当数据量很大时，可以：

使用地理编码替代完整名称
分级显示数据
考虑使用WebGL加速

7. 扩展应用场景

这套技术方案不仅适用于行政区划可视化，还可以扩展到：

疫情数据地图：展示各地疫情发展情况
物流网络分析：优化配送路线和仓储布局
房地产分析：可视化房价分布和变化趋势
人口流动分析：展示人口迁移情况

比如我们可以很容易地改造代码来展示房价数据：

def draw_house_price_map(): # 获取房价数据 price_data = get_house_price_data() # 绘制地图 map_chart = ( Map() .add("房价", price_data, "china") .set_global_opts( visualmap_opts=opts.VisualMapOpts( min_=5000, max_=100000, is_piecewise=True ) ) ) return map_chart

8. 性能优化建议

当数据量较大时，可以考虑以下优化措施：

使用GeoJSON格式存储数据，减少解析时间
对数据进行分级聚合，避免同时展示过多细节
使用WebWorker进行后台数据处理
实现懒加载，只渲染当前可视区域的数据

一个实用的性能优化示例：

def optimize_performance(data): # 按省份聚合数据 aggregated = data.groupby('province').agg({'value': 'mean'}) # 转换数据格式 optimized_data = [ (name, value) for name, value in aggregated.itertuples() ] return optimized_data

在处理全国地级市数据时，这些优化可以使页面加载时间从几秒缩短到毫秒级。

查看全文

http://www.gsyq.cn/news/1598999.html