当前位置: 首页 > news >正文

GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南

GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

GewisLab/CNEnvAir是一个专注于中国环境空气研究的开源数据集项目,提供了丰富的空气质量数据、气象数据和关键的源成分谱数据,这些源成分谱数据可直接用于PMF(正定矩阵因子分解)和CMB(化学质量平衡)等主流源解析模型,帮助研究人员高效开展空气污染源解析工作。

为什么选择CNEnvAir进行PMF/CMB模型研究?

CNEnvAir数据集专为空气污染源解析研究设计,其源成分谱数据具有以下显著优势:

  • 全面的污染源覆盖:包含工业燃烧源、工业工艺过程、民用燃烧源、生物质燃烧、畜牧源、道路移动源和非道路移动源等七大类,基本涵盖了中国主要大气污染源。

  • 丰富的化学组分:数据包含PM2.5、PM10、金属元素(如Na、Mg、Al、Si、K等)、离子(如sulfate、nitrate、ammonium)、有机组分(如多环芳烃PAHs)、有机胺(如甲胺、二甲胺)和气态组分(如IVOCs)等多种关键化学物质。

  • 标准化数据格式:所有源成分谱数据均采用Parquet格式存储,具有高压缩率和高效的读写性能,便于使用Python等工具进行数据处理和模型输入。

CNEnvAir源成分谱数据结构详解

核心源谱文件(PMF/CMB模型直接输入数据)

CNEnvAir的source_profiles目录下包含5个核心PM源谱文件,共计414行有效样本,是PMF/CMB模型的主要输入数据:

文件行数主要内容
PM_source_Industrial_boiler.parquet24工业锅炉PM源谱
PM_source_Industrial_process.parquet174工业工艺过程PM源谱
PM_source_Power_industry.parquet61电力行业PM源谱
PM_source_Residential.parquet95民用燃烧PM源谱
PM_source_Transportation.parquet60交通源PM源谱

这些文件包含统一的关键字段:

  • 一级源: 源类别(如工业燃烧、民用燃烧、交通等)
  • 二级源: 具体源类型(如锅炉、工艺过程等)
  • 采样地点: 采样区域
  • 采样时间: 采样年份
  • 组分名称: 化学组分
  • EF: 排放因子 (μg/kg 或 μg/m³)
  • 参考文献: 数据来源

辅助组分数据(模型优化与验证)

除核心PM源谱外,还有16个辅助组分文件,提供更详细的化学组分信息,可用于模型优化和结果验证:

  • 工业燃烧源:如工业燃烧源_常规组分.parquet,包含Na、Mg、Al等金属元素
  • 民用燃烧源:如民用燃烧源_有机组分(实验室模拟燃烧).parquet,包含多环芳烃(PAHs)
  • 生物质开放燃烧源生物质开放燃烧源_常规组分.parquet,包含K、Cl等特征组分
  • 移动源:如道路移动源_有机胺.parquet非道路移动源_气态组分.parquet

PMF/CMB模型数据准备步骤

1. 获取数据集

首先克隆CNEnvAir仓库到本地:

git clone https://gitcode.com/GewisLab/CNEnvAir.git cd CNEnvAir

2. 数据选择与提取

根据研究区域和目标污染物,选择合适的源谱文件。例如,若研究城市大气PM2.5来源,核心PM源谱文件是基础:

import pandas as pd # 读取工业锅炉PM源谱数据 industrial_boiler = pd.read_parquet("source_profiles/PM_source_Industrial_boiler.parquet") # 读取交通源PM源谱数据 transportation = pd.read_parquet("source_profiles/PM_source_Transportation.parquet") # 合并源谱数据 source_profiles = pd.concat([industrial_boiler, transportation], ignore_index=True)

3. 数据预处理

数据预处理是确保模型准确性的关键步骤,主要包括:

  • 单位统一:确保所有排放因子单位一致,CNEnvAir源谱数据主要使用μg/kg fuel、mg/kg fuel、mg/m³和ng/m³等单位。

  • 缺失值处理:检查并处理缺失数据,可根据研究需求选择删除或插值。

  • 异常值检测:使用统计方法(如Z-score)识别并处理异常值。

  • 组分筛选:根据模型要求和研究目标,筛选出关键化学示踪物。

4. 模型输入格式转换

PMF和CMB模型通常需要特定格式的输入文件,可使用Python将处理后的源谱数据转换为模型所需格式:

# 提取组分名称和排放因子,准备PMF模型输入 pmf_input = source_profiles.pivot_table(index=['一级源', '二级源'], columns='组分名称', values='EF').fillna(0) # 保存为CSV格式 pmf_input.to_csv('pmf_source_profiles.csv')

数据使用注意事项

  1. 数据适用性:CNEnvAir源谱数据主要针对中国区域污染源,使用时需考虑研究区域与数据采样地点的地理差异。

  2. 时间范围:源谱数据的采样时间范围需与受体数据(如空气质量监测数据)的时间范围相匹配,以确保解析结果的准确性。

  3. 数据引用:如使用本数据集发表研究成果,请注明数据来源。

  4. 数据更新:CNEnvAir项目会定期更新数据,建议关注项目最新动态以获取更完善的源谱数据。

总结

GewisLab/CNEnvAir提供了高质量、标准化的源成分谱数据,为PMF和CMB等源解析模型的应用提供了便捷的数据基础。通过本文介绍的步骤,研究人员可以快速完成模型数据准备,专注于污染源解析方法和结果分析,从而更高效地开展大气污染来源研究工作。

如需进一步了解数据集详情,可参考项目根目录下的README.md和source_profiles目录下的README.md文件,获取更全面的数据说明和使用指南。

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1464880.html

相关文章:

  • Windows终极优化神器:WinUtil完整指南 - 一键解决系统卡顿与软件安装烦恼
  • 如何快速实现AI设计转代码:Figma-Context-MCP完整使用教程
  • CANN/asc-devkit: Reg矢量存储对齐接口
  • PDMS管道设计效率翻倍:手把手教你安装NakiPipeline插件(附常见错误排查)
  • 2026年6月钢格板厂家推荐:五大专业评测工程荷载防变形性价比高价格 - 品牌推荐
  • DeepSeek-R1实战避坑指南:MoE架构、Tokenizer与Agent工程陷阱
  • STM32F103裸机移植CanFestival-3全记录:从源码下载到心跳包测试(附对象字典生成工具避坑)
  • 从智能车竞赛到DIY电源:固态电容替换液态电容的实战避坑指南(附发热对比测试)
  • Android-DecoView-charting常见问题解答:从入门到精通的10个实用技巧
  • 从Jupyter到生产环境:机器学习模型服务化实战指南
  • 利用快马平台快速构建雨燕直播原型:一小时搭建可演示的WebRTC直播应用
  • 避坑指南:Zynq AXI GPIO中断配置的5个常见错误与解决方法(附SDK代码对比)
  • 大语言模型的类生命行为:代谢、边界、意图与创伤四大体征
  • 终极指南:在NPU、GPU和CPU上高效部署PyTorch-NPU/bert_base_cased模型
  • PyTorch GPU环境避坑指南:从CUDNN_STATUS_NOT_INITIALIZED到torch.cuda.is_available()为True
  • RAG工程实战:从PDF文档到精准问答的完整流水线
  • 杜芬与幂律振子的Newmarkβ和RK4数值仿真MATLAB工程包(含可调参数代码+教学PPT)
  • 2026年石家庄空调移机哪家好?5家专业公司推荐 - 本地品牌推荐
  • C#上位机开发:用CX-Compolet搞定欧姆龙NX系列PLC通讯(Ethernet/IP协议)
  • XB1手柄电量监控:告别游戏中断的终极解决方案
  • HsMod终极指南:55项功能深度解析与配置教程
  • Kronos金融AI实战指南:5步构建智能量化交易系统
  • 告别ST缺货烦恼:手把手教你用J-Flash给华大HC32F460烧录程序(附完整算法文件包)
  • restic 0.18.1 官方版下载(夸克网盘+百度网盘,SHA256校验)
  • MATLAB纯脚本实现PWM波生成与可视化(含实操录像和逐行中文注释)
  • XAI实战三剑客:SHAP、Captum与DICE在金融、医疗、自动驾驶中的落地
  • 别再为‘Invalid date’头疼了!手把手排查Moment.js日期解析的5个常见坑
  • 高性能文献管理架构:Zotero Style插件深度集成方案实现指南
  • STM32开发踩坑记:VSCode+CMake在Windows下编译失败?可能是这个参数没设对
  • 基于SSM与Vue实现的轻量级OA办公系统(含完整数据库脚本与可运行前后端工程)